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译 者 序 


大 数据 是 业内 热门 的 话题 ， 大 数据 存储 后 如 何 做 好 实时 处 理 是 重要 的 技术 焦点 。 作 
为 当前 最 受 关注 的 实时 大 数据 开源 平台 项 目 ，Storm 和 Spark 都 能 为 广大 潜在 用 户 提供 良 
好 的 实时 大 数据 处 理 功 能 。 除 在 功能 方面 的 部 分 交集 外 ，Storn、Spark 还 各 自 拥有 独特 
的 特性 与 市 场 定位 。 根 据 业 务 应 用 需求 选用 恰当 的 技术 平台 是 大 数据 应 用 成 功 的 关键 ， 
本 书 既 涵 盖 了 不 同 实时 数据 处 理 框 架 和 技术 的 基础 知识 , 又 论述 了 大 数据 批量 及 实时 处 
理 的 差异 化 细节 ， 还 深入 探讨 了 使 用 Storm, Spark 进行 大 数据 处 理 的 技术 和 程序 设计 
概念 。 

本 书 以 丰富 的 应 用 场景 及 范例 说 明 如 何 利 用 Storm. 进行 实时 大 数据 分 析 ， 既 涉及 了 
Storm 的 组 件 及 关键 概念 内 部 实现 的 基础 ， 又 整合 了 Kafka 来 处 理 实时 事务 性 数据 ， 还 探 
讨 了 Storm 微小 批 处 理 抽象 延伸 的 Trident 框架 和 性 能 优化 。 此 外 ， 包 括 了 使 用 Kinesis 
服务 在 亚马逊 云 上 处 理 流 数据 的 内 容 。 本 书后 半 部 分 着 重 介绍 了 如 何 利用 Spark 为 实时 和 
批量 分 析 开 发 通用 型 的 企业 架构 和 应 用 , 既 可 通过 RDD 编程 轻松 实现 数据 转换 和 保存 操 
作 ， 亦 介绍 了 Spark SQL 访问 数据 库 的 实践 案例 ， 还 扩展 了 Spark Streaming 来 分 析 流 数 
据 ， 最 后 利用 Spark Streaming 和 Spark 批 处 理 等 实现 了 实时 批 处 理 兼顾 的 Lambda 架构 。 

本 书 既 包含 了 易于 上 手 的 逐步 详细 技术 指引 ， 也 提供 了 深入 浅 出 的 丰富 实践 范例 ， 
学 习 时 要 求 读者 最 好 拥有 Java 或 Scala 语言 的 编程 经 验 和 Hadoop 等 大 数据 计算 平台 的 基 
础 知识 。 

在 本 书 的 翻译 过 程 中 ， 除 张 广 骏 之 外 ， 潘 玉兰 、 张 华 锋 、 朱 仁 杰 、 潘 玉 芳 、 张 广 容 、 
WIR. IK. ARES STRIPE, PES. 
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对 于 现代 企业 而 言 ， 处 理 过 去 10~20 年 的 历史 数据 并 进行 分 析 以 获得 提升 业务 的 洞 
见 是 当今 最 为 热门 的 用 例 。 

企业 过 去 曾 执 迷 于 数据 仓库 的 开发 。 通 过 这 些 数据 仓库 ， 企 业 努 力 从 每 个 可 能 的 数据 
源 获 取 数 据 并 存储 下 来 ， 再 利用 各 种 商业 智能 工具 对 数据 仓库 中 存储 的 数据 进行 分 析 。 但 
是 开发 数据 仓库 是 一 个 复杂 、 耗 时 和 大 开销 的 过 程 ， 需 要 相当 程度 的 资金 和 时 间 投 入 。 

Hadoop 及 其 生态 系统 的 涌现 无 疑 为 海量 大 数据 问题 的 处 理 提供 了 一 种 新 的 方法 或 架 
构 ， 通 过 这 种 低 成 本 、 可 伸缩 的 解决 方案 ， 过 去 需要 数 天 时 间 处 理 的 成 TB 数据 将 在 几 小 
时 内 被 处 理 完毕 。 尽 管 有 着 这 样 的 优势 ， 在 其 他 一 些 需要 实时 或 准 实时 〈 如 亚 秒 级 服务 等 
级 协议 SLAY 执行 分 析 及 获得 业务 洞 见 的 应 用 场景 中 ，Hadoop 还 是 面临 着 批 处 理性 能 方 
面 的 挑战 。 这 类 应 用 需求 可 称 为 实时 分 析 CRTAO 或 准 实时 分 析 CNRTA )， 有 时 又 被 称 为 

“ 快 数据 ” 后 者 意味 着 做 出 准 实时 决策 的 能 力 , 即 要 在 有 限 的 商务 决策 时 间 内 提供 卓 有 成 
效 的 数据 支持 。 

为 应 对 这 些 企业 实时 数据 分 析 的 应 用 场景 , 出 现 了 一 些 高 性 能 、 易于 使 用 的 开源 平台 。 
Apache Storm 和 Apache Spark 是 其 中 最 为 引 人 注 目的 代表 性 平台 ， 能 够 为 广大 相关 用 户 提 
供 实时 数据 处 理 和 分 析 功 能 。 这 两 个 项 目 都 归属 于 Apache 软件 基金 会 。 尽 管 有 部 分 功能 
重合 ， 这 两 个 工具 平台 仍 保持 着 各 自 的 特色 和 不 同 功 能 。 

考虑 到 以 上 的 大 数据 技术 背景 ,本 书 结合 实际 用 例 介 绍 了 应 用 Apache Storm 和 Apache 
Spark 进行 实时 大 数据 分 析 的 实现 过 程 ， 为 读者 提供 了 快速 设计 、 应 用 和 部 署 实时 分 析 所 
需 的 技术 。 














本 书 内 容 


第 1 章 “ 大 数据 技术 前 景 及 分 析 平 台 ” 黄 定 了 全 书 的 知识 背景 ， 主 要 包括 大 数据 前 景 
的 综述 、 大 数据 平台 上 采用 的 各 种 数据 处 理 方法 、 进 行 数 据 分 析 所 用 的 各 种 平台 。 本 章 也 
介绍 了 实时 或 准 实时 批量 分 布 式 处 理 海量 数据 的 范式 。 此 外 , 还 涉及 处 理 高 速 /高 频数 据 读 
写 任务 的 分 布 式 数据 库 。 
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第 2 AE Storm” 介 绍 了 实时 / 准 实时 数据 处 理 框架 Apache Storm 的 概念 、 架 构 及 
编程 方法 。 这 里 涉及 多 种 Storm 的 基本 概念 , 诸如 数据 源 (spouts)、 数 据 流 处 理 组 件 (bolts)、 
并 行 度 (parallelism) 等 。 本 章 还 以 丰富 的 应 用 场景 及 范例 说 明 如 何 利用 Storm 进行 实时 大 
数据 分 析 。 

第 3 章 “ 用 Storm 处 理 数据 ”着 重 于 介绍 Apache Storm 中 用 于 处 理 实时 或 准 实时 数据 
流 的 内 部 操作 ， 如 过 滤 (filters) 、 连 接 Goins) 、 聚 合 (aggregators) 等 。 这 里 展示 了 Storm 
对 Apache Kafka、 网 络 通信 接口 、 文 件 系统 等 多 种 输入 数据 源 的 集成 , 最 后 利用 Storm JDBC 
框架 将 处 理 过 的 数据 保存 起 来 。 本 章 还 提 到 Storm 中 多 种 企业 关注 的 数据 流 处 理 环节 ， 诸 
如 可 靠 性 、 消 息 获取 等 。 

第 4 章 “Trident 概述 和 Storm 性 能 优化 ”验证 了 实时 或 准 实 时 事务 数据 的 处 理 。 这 里 
介绍 了 实时 处 理 框架 Trident， 它 主要 用 于 处 理事 务 数据 。 在 此 提 到 使 用 Trident 处 理事 务 
应 用 场景 的 几 种 架构 。 这 一 章 还 提 到 多 种 概念 和 可 用 参数 ， 进 而 探讨 了 它们 对 Storm 框架 
与 其 任务 的 监测 、 优 化 以 及 性 能 调整 诸 方面 的 可 用 性 。 本 章 还 涉及 LMAX、 环 形 缓冲 区 、 
ZeroMQ 等 Storm 内 部 技术 。 

第 5 章 “ 熟 悉 Kinesis” 提 到 了 在 云 上 可 用 的 实时 数据 处 理 技术 Kinesis， 此 技术 是 亚 马 
逊 云 计算 平台 AWS 中 的 实时 数据 处 理 服 务 。 这 里 先 说 明了 Kinesis 的 架构 和 组 成 部 分 ， 接 
着 用 一 个 端 到 端的 实时 报警 发 生 范 例 阐明 了 Kinesis 的 用 法 ， 其 中 使 用 到 KCL. KPL 等 客 
户 端 库 。 

第 6 章 “ 熟 悉 Spark” 介 绍 了 Apache Spark 的 基础 知识 ， 其 中 包括 Spark 程序 的 高 级 
架构 和 构建 模块 。 这 里 先 从 Spark 的 纵览 开始 ， 接 着 提 到 了 Spark 在 各 种 批 处 理 和 实时 用 
户 场景 中 的 应 用 情况 。 这 一 章 还 深入 讲 到 Spark 的 高 级 架构 和 各 种 组 件 。 在 本 章 的 最 后 间 
分 讨论 了 Spark 集群 的 安装 、 配 置 以 及 第 一 个 Spark 任务 的 执行 实现 。 

第 7 章 “ 使 用 RDD 编程 ”对 Spark RDD 进行 了 代码 级 的 预 排 。 这 里 说 明了 RDD API 
提供 的 各 种 编程 操作 支持 ， 以 便于 使 用 者 轻松 实现 数据 转换 和 保存 操作 。 在 此 还 阐明 了 
Spark 对 如 Apache Cassandra 这 样 的 NoSQL 数据 库 的 集成 。 

第 8 章 “Spark 的 SQL 查询 引擎 一 Spark SQL” MAT Spark SQL, 这 是 一 个 和 Spark 
协同 工作 的 SQL 风格 的 编程 接口 , 可 以 帮助 读者 将 Parquet 或 Hive 这 样 的 数据 集 快 速 应 用 
到 工作 中 ， 并 支持 通过 DataFrame 或 原始 SQL 语句 构建 查询 。 本 章 同时 推荐 了 一 些 Spark 
数据 库 的 最 佳 实践 案例 。 

第 9 章 “ 用 Spark Streaming 分 析 流 数据 ”介绍 了 Spark 的 又 一 个 扩展 工具 Spark 
Streaming， 用 于 抓 取 和 处 理 实时 或 准 实时 的 流 数据 。 这 里 顺 承 着 Spark 架构 简明 扼要 地 描 
述 了 Spark Streaming 中 用 于 数据 加 载 、 转 换 、 持 久 化 等 操作 的 各 种 应 用 编程 接口 。 为 达成 
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实时 查询 数据 ， 本 章 将 Spark SQL 和 Spark Streaming 进行 了 深入 集成 。 本 章 最 后 讨论 了 
Spark Streaming 任务 部 署 和 监测 等 方面 的 内 容 。 

第 10 章 “ 介 绍 Lambda 架构 ”引领 读者 认识 了 新 兴 的 Lambda 架构 ， 这 个 架构 可 以 将 
实时 和 预计 算 的 批量 数据 结合 起 来 组 成 一 个 混合 型 的 大 数据 处 理 平台 ， 从 其 中 获得 对 数 
据 的 准 实时 理解 。 本 章 采 用 了 Apache Spark 并 讨论 了 Lambda 架构 在 实际 应 用 场景 中 的 
实现 。 





本 书 阅 读 基础 


本 书 的 读者 最 好 拥有 Java 或 Scala 语言 的 编程 经 验 ， 对 Apache Hadoop 等 代表 性 分 布 
式 计 算 平 台 的 基础 知识 亦 有 一 定 了 解 。 


本 书 适 用 读者 


本 书 主要 面向 应 用 开源 技术 进行 实时 分 析 应 用 和 框架 开发 的 大 数据 架构 师 、 开 发 者 及 
程序 员 群 体 。 这 些 有 实力 的 开发 者 阅读 本 书 时 可 以 运用 Java 或 Scala 语言 的 功底 来 进行 高 
效 的 核心 要 素 和 应 用 编程 实现 。 

本 书 会 帮助 读者 直面 不 少 大 数据 方面 的 难点 及 挑战 。 书 里 不 但 包括 应 用 于 实时 / 准 实时 
流 数据 及 高 频 采 集 数据 处 理 分 析 的 大 量 工具 和 技术 ， 而 且 涵 盖 了 Apache Storm, Apache 
Spark, Kinesis 等 各 种 工具 和 技术 的 内 存 分 布 式 计算 范式 。 














本 书 约定 


本 书 应 用 了 一 些 文本 格式 以 区 分 不 同类 型 的 信息 。 以 下 是 这 些 文本 格式 范例 和 含义 
说 明 。 

文中 的 代码 、 数 据 库 表 名 称 、 文 件 目录 名 称 、 文 件 名 、 文 件 扩展 名 、 路 径 名 、 伪 URL. 
用 户 输入 以 及 推 特 用 户 定位 采用 如 下 方式 表示 : 

“The PATH variable should have the path to Python installation on your machine.” 
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代码 块 则 通过 下 列 方式 设置 : 
public class Count implements CombinerAggregator { 
GOverride 
public Long init(TridentTuple tuple) ( 
return 1L; 


) 
命令 行 输入 和 输出 的 显示 方式 如 下 所 示 : 


> bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test 


SS 图 标 表示 警告 提醒 或 重要 的 概念 。 
Q 图 标 表示 提示 或 相关 操作 技巧 。 


读者 反馈 


欢迎 读者 对 本 书 反馈 意见 或 建议 ， 以 便于 我 们 进一步 了 解读 者 的 阅读 喜好 。 反 馈 意见 


对 于 我 们 十 分 重要 ， 便 于 我 方 日 后 工作 的 改进 。 





读者 可 将 这 些 反馈 内 容 发 送 邮 件 到 feedback@packtpub.com， 建 议 以 书 名 作为 邮件 


标题 。 





若 读者 针对 某 项 技术 具有 专家 级 的 见解 ， 抑 或 计划 撰写 书籍 或 完善 某 部 著作 的 出 版 工 


作 ， 则 可 阅读 www.packtpub.com/authors 中 的 author guide 一 栏 。 


客户 支持 


感谢 您 购买 本 社 出 版 图 书 ， 我 们 将 竭诚 对 每 一 名 读者 提供 周到 的 客户 服务 支持 。 
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示例 源码 下 载 


读者 可 访问 http://wwwpacktpub.com 登录 您 的 账户 下 载 本 书 中 的 示例 代码 文件 。 无 论 以 何 
种 方式 购买 本 书 ， 都 可 以 访问 http://www. packtpub.com/support， 注 册 后 相关 文件 会 以 电子 
邮件 方式 直接 发 送 给 您 。 
读者 还 可 经 由 以 下 步骤 下 载 源 码 文件 : 
CD 通过 电子 邮件 加 密码 方式 注册 登录 我 们 的 网 站 。 
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大 数据 在 突飞猛进 的 发 展 中 已 成 为 下 一 代数 据 存 储 、 管 理 和 分 析 方面 最 强大 的 计 
算 范 式 。IT 巨头 们 实际 上 都 已 接纳 了 这 种 变化 ， 而 且 格外 重视 大 数据 技术 在 业务 中 的 
应 用 。 

代表 性 的 数据 存储 和 分 布 式 处 理 平台 Hadoop 已 然 成 熟 并 在 应 用 中 继续 改进 提升 。 目 
前 不 仅 可 以 从 大 数据 全 局 视野 了 解 各 种 工具 ， 还 可 以 从 大 数据 空间 各 个 具体 角度 来 审视 
特定 技术 的 应 用 效果 。 

读者 可 以 通过 本 章 来 熟悉 大 数据 技术 前 景 及 分 析 平 台 。 首 先 介绍 了 大 数据 的 基础 杠 
架 、 处 理 模块 组 件 及 未 来 的 发 展 。 接 着 讨论 了 大 数据 近 实 时 分 析 的 需求 及 应 用 场景 。 

如 下 内 容 有 助 于 理解 大 数据 技术 前 景 : 
大 数据 基础 框架 
大 数据 生态 系统 的 组 件 
分 析 框 架 
分 布 式 批 处 理 
分 布 式 数据 库 (NoSQL) 
实时 数据 处 理 及 流 数据 处 理 





oooooo 


1.1 大 数据 的 概念 


大 数据 并 不 是 一 个 突如其来 的 时 兴 科 技 词语 ， 而 是 在 厚积薄发 中 不 断 演变 ， 时 机 到 
来 时 一 下 变 得 广为人知 。 传 统 数据 库 和 数据 仓库 的 统治 地 位 本 来 看 上 去 牢 不 可 破 ， 随 着 
Hadoop 等 大 数据 技术 的 日 趋 成 熟 ， 这 种 情况 到 了 终结 的 时 候 。 

如 今 ， 在 社会 和 经 济 的 各 个 方面 都 会 接触 到 海量 的 数据 信息 。 举 凡 像 生产 制造 、 汽 
车 、 金 融 、 能 源 、 日 用 品 、 交 通 运输 、 安 保 、 信 息 技术 及 网 络 等 工业 中 都 已 积累 大 量 行 
业 数 据 信 息 ， 并 且 新 数据 还 在 源源 不 断 地 产生 。 大 数据 作为 一 种 学 科 〈 抑 或 领域 、 概 念 、 
理论 、 思 想 ) 出 现 ， 通 过 对 海量 数据 的 存储 、 处 理 、 分 析 获 取 智 能 见解 ， 使 得 信息 化 及 
自动 计算 决策 成 为 可 能 。 这 些 决策 全 方位 促进 了 经 济 领域 的 推广 、 增 长 、 规 划 和 预测 等 
应 用 ， 这 也 是 大 数据 像 风暴 一 样 席 卷 全 世界 的 原因 。 
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纵 观 信息 技术 产业 的 发 展 趋势 ， 人 们 经 历 了 从 手工 计算 到 自动 计算 应 用 再 到 企业 级 
计算 应 用 的 各 种 时 代 。 企 业 级 应 用 阶段 催生 出 了 诸如 SaaS〈 软 件 即 服务 ) 和 PaaS (平台 
即 服务 ) 的 云 计算 架构 风格 。 如 今 已 进入 海量 数据 的 时 代 ， 需 要 以 高 性 价 比 的 方式 来 处 
理 和 分 析 数 据 。 开 放 源 码 因 其 降低 软件 许可 费用 、 数 据 存储 和 计算 开销 而 大 受 欢迎 ， 于 
各 方面 的 应 用 为 驾驭 数据 提供 了 有 利 可 图 又 经 济 有 效 的 支持 手段 。 因 为 能 够 以 不 可 思议 
的 速度 处 理 海量 数据 并 产生 智能 化 见解 ， 大 数据 被 看 作 是 低 成 本 、 可 扩展 、 可 用 性 高 且 
可 靠 的 解决 方案 。 





12 大 数据 的 维度 范式 


起 初 大 数据 被 简化 概括 为 三 个 维度 : KE (volume)、 高 速 (velocity) 和 多 样 (variety )。 
后 来 ， 将 精确 (veracity》 和 价值 (value〉 两 个 维度 补充 进来 ， 形 成 如 下 的 五 维 范式 。 

O 大 量 : 这 一 维度 指数 据 的 数量 。 环 顾 四 周 ， 每 一 秒 钟 都 有 大 量 数据 产生 ， 这 些 
数据 既 可 能 是 用 户 发 送 的 电子 邮件 ,也 可 能 是 推 特 (Twitter) 、 脸 书 (Facebook) 
或 其 他 社交 媒体 中 的 信息 ， 还 可 能 是 来 自 各 种 设备 及 传感器 的 视频 、 图 片 、 手 
机 短信 、 通 话 记录 及 其 他 数据 。 对 于 数据 的 计量 从 TB 级 (terabytes, FALEI) 
上 升 到 ZB 级 (zettabytes， 十 万 亿 亿 字 节 ) ， 乃 至 于 NB 级 Cnonabytes， 一 百 万 
亿 亿 亿 字 节 ) 这 样 趋 近 天 文 数字 的 量 级 。 在 脸 书 网 站 上 每 天 约 有 100 亿 条 信息 ， 
所 有 用 户 间 的 信息 重复 后 仍 接近 每 天 50 亿 条 信息 ， 并 且 每 天 还 有 4 亿 图 片 类 文 
件 上 传 。 可 统计 的 数据 量 令 人 吃惊 。 有史 以 来 积累 到 2008 年 的 所 有 数据 量 ， 与 
现今 一 天 产生 的 数据 量 相当 ， 可 以 预计 在 不 久 的 将 来 ， 一 小 时 就 会 有 如 此 的 数 
据 量 。 仅 从 数据 量 维度 来 看 ， 传 统 的 数据 库 已 无 法 在 时 效 期 间 合理 存储 和 处 理 
这 些 海量 数据 ， 于 是 大 数据 堆栈 技术 脱颖而出 ， 因 为 它 能 用 高 性 价 比 、 分 布 式 
并 且 可 靠 有 效 的 方式 来 存储 、 处 理 和 计算 这 些 数量 惊人 的 数据 。 

Q HD. 这 一 维度 是 指数 据 的 产生 速度 。 如 今 海量 数据 如 波涛 测 涌 而 来 ， 在 这 种 
情况 下 ， 数 据 产 生 速 度 也 不 落下 风 。 正 是 由 于 数据 产生 速度 非常 快 才 积累 了 巨 
量 数据 。 社 会 媒体 的 事件 信息 常 在 几 秒 间 以 类 似 病毒 的 方式 扩散 ， 而 股票 交易 
者 们 要 在 毫秒 级 的 时 间 内 从 这 些 社 会 媒体 中 分 析出 有 用 的 信息 以 及 时 进行 大 量 
的 股票 买 入 / 卖 出 操作 。 在 零售 业 的 终端 设备 上 ， 几 秒 钟 内 就 可 以 完成 信用 卡 刷 
卡 、 欺 诈 交 易 辨 识 处 理 、 支 付 、 记 账 和 通知 一 系列 操作 。 大 数据 技术 提供 了 以 
极 快 速度 来 处 理 数据 的 能 力 。 
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O 多 样 : 这 一 维度 代表 数据 可 以 被 非 结构 化 处 理 的 现实 情况 。 在 传统 数据 库 时 乃 
至 更 早 的 时 期 ， 我 们 已 习惯 于 表格 中 匹配 好 非常 整齐 的 结构 数据 。 不 过 如 今 像 
照片 、 视 频 、 剪 辑 、 社 会 媒体 更 新 、 来 自 各 种 传感器 的 数据 、 语 音 记 录 及 聊天 
对 话 等 这 样 一 些 超过 80% 的 数据 都 是 非 结 构 化 的 。 大 数据 技术 可 以 让 用 户 以 非 


常 结构 化 的 方式 存储 和 处 理 非 结构 化 数据 ， 
ü Wi: 这 一 维度 指数 据 的 合理 性 和 正确 率 。 
何 ? 在 百 万 乃至 近乎 无 限量 级 的 数据 记录 














很 好 地 发 挥 了 多 样 性 的 作用 。 
数据 究竟 有 多 精确 ?其 可 用 程度 如 
有 并非 所 有 数据 都 是 校正 过 的 、 精 确 

















的 及 可 做 参考 的 。 于 是 精确 性 实际 上 用 来 衡量 数据 的 可 信 程度 以 及 数据 的 质量 。 
以 脸 书 和 推 特 的 数据 为 例 ， 这 两 家 网 站 上 贴 出 的 信息 都 存在 着 非 标准 缩 略 和 拼 
写 错误 。 大 数据 技术 能 够 对 上 述 类 型 的 数据 进行 表格 化 分 析 处 理 。 对 于 数据 ， 


重要 前 提 之 一 就 是 精确 性 。 


O 价值 ， 正如 名 称 所 表达 的 ， 这 一 维度 指数 据 实际 具有 的 价值 。 无 疑 这 是 大 数据 
最 重要 的 一 个 维度 。 业 界 纷纷 转向 处 理 超 大 量 数据 集 的 大 数据 技术 的 唯一 动机 
是 渴望 从 中 获取 到 有 价值 的 观点 ， 因 为 归根 到 底 这 都 关乎 成 本 和 利润 。 





1.3 大 数据 生态 系统 


对 于 初学 者 来 说 ， 大 数据 前 景 非常 令 人 困惑 。 这 不 但 涉及 广阔 的 技术 领域 ， 而 且 同 各 
种 各 样 的 应 用 场景 有 关 。 不 存在 一 种 简单 明了 的 直接 解决 方案 ， 相 反 ， 每 种 用 户 场景 都 
需要 一 种 自 定义 解决 方案 。 大 数据 的 这 种 技术 栈 多 样 和 标准 缺乏 的 特点 增加 了 开发 者 的 
困难 。 好 在 有 多 种 技术 可 从 这 种 大 量 级 的 数据 中 获取 有 意义 的 观点 。 

从 基本 要 求 来 看 ， 创 建 任何 数据 分 析 应 用 的 环境 都 应 该 包含 如 下 几 部 分 : 





口 存储 数据 
ü “充实 或 处 理 数据 
ü ”数据 分 析 和 可 视 化 


再 深入 一 些 来 看 ， 目 前 存在 着 一 些 专门 的 大 数据 工具 和 技术 : 像 Talend 和 Pentaho 


这 样 的 数据 提取 转换 和 加 载 CETL) 工具 ; 像 Hive 和 


MapReduce 这 样 的 大 批量 处 理工 具 ; 


像 Storm, Spark 这 样 的 实时 处 理工 具 ， 等 等 。 根 据 福布斯 网 的 信息 ， 大 数据 前 景 如 图 1.1 


所 示 。 


supe 实时 大 数据 分 析 一 一 基于 Storm. Spark 技术 的 实时 应 用 
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图 1.1 清楚 地 展示 了 大 数据 领域 所 涵盖 的 内 容 
Hadoop FI! NoSQL 这 样 的 平台 
HDP, CDH, EMC, Greenplum, DataStax 等 分 析 工具 
Teradata, VoltDB, MarkLogic 等 基础 设施 
AWS, Azure 等 基础 设施 即 服务 CaaS) 
Oracle, SQL Server、DB2 等 结构 化 数据 库 
INRIX, LexisNexis, Factual 等 数据 即 服务 (Daas) 
除了 上 述 各 项 ,大 数据 领域 还 包括 诸如 商业 智能 (BID)、 分 析 及 可 视 化 、 广 告 及 媒体 、 
日 志 数据 及 纵向 应 用 等 面向 特定 问题 范围 的 内 容 。 


oooooo 


14 大 数据 基础 设施 





任何 大 数据 技术 栈 的 核心 都 是 具备 存储 、 处 理 及 分 析 数 据 能 力 的 技术 。 在 标准 化 的 
关系 数据 存储 取代 原本 基于 文件 的 序列 化 存储 之 后 ， 数 据 表 和 记录 的 技术 流行 了 很 长 时 
间 ， 这 些 技术 在 过 去 能 很 好 地 服务 于 企业 需求 。 可 随 着 如 前 所 述 大 数据 五 个 维度 特征 的 
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显现 ， 以 关系 数据 存储 为 主 的 处 理 企业 需求 的 时 代 到 了 结束 的 时 刻 。 

在 其 时 代 结 束 之 际 ， 我 们 仍 可 以 看 到 ， 强 大 的 RDBMS (关系 型 数据 库 管理 系统 ) T. 
具 一 直 在 努力 提供 高 性 价 比 数 据 存储 和 处 理 。 当 需要 低 延 迟 处 理 海量 数据 时 ， 在 传统 
RDBMS 基础 上 进行 计算 能 力 扩展 需要 花费 高 昂 代 价 。 这 种 情况 促进 了 低 成 本 、 低 延迟 及 
低 价 或 开源 兼 具 高 可 扩展 性 等 数据 新 技术 的 涌现 。 如 今 ， 可 以 通过 拥有 成 千 上 万 节点 的 
Hadoop 集群 来 吞吐 和 消化 数 千 光 字 节 的 数据 。 

Hadoop 的 关键 技术 包括 如 下 几 方 面 。 


口 


口 





Hadoop: 这 一 以 黄色 小 象 为 标志 的 技术 为 数据 存储 和 计算 领域 带 来 了 惊喜 。 基 
于 商业 硬件 ， 它 以 高 度 可 靠 且 可 扩展 的 方式 来 设计 和 开发 了 用 于 数据 存储 和 计 
算 的 分 布 式 框架 。Hadoop 在 集群 中 所 有 节点 上 以 块 为 单位 分 发 数据 来 开始 工 
作 ， 然 后 在 所 有 节点 上 并 发 处 理 数据 。Hadoop 中 两 个 关键 的 移动 组 件 是 映射 器 
(mapper) 和 缩减 器 (reducer) 。 

NoSQL: 这 是 No-SQL 的 缩写 ， 实 际 上 并 非 传 统 的 结构 化 查询 语言 。 基 本 上 
它 是 一 个 处 理 大 量 多 结构 化 数据 的 工具 ， 比 如 像 广为人知 的 HBase 和 
Cassandra。 与 传统 的 数据 库 系统 相 区 别 的 是 ， 它 们 通常 没有 单独 故障 点 并 且 
是 可 扩展 的 。 

MPP〈 大 规模 并 行 处 理 的 英文 缩写 ) 数据 库 : 这 些 是 能 够 以 非常 快 的 速度 来 处 
理 数 据 的 计算 平台 。 其 基本 工作 概念 是 将 数据 分 成 集群 中 不 同 节点 中 的 块 ， 然 
后 并 行 处 理 使 用 数据 。 它们 在 数据 分 段 和 每 个 节点 的 并 发 处 理 方面 与 Hadoop 类 
似 。 与 Hadoop 不 同 的 是 ，MPP 数据 库 不 在 低 端 商业 机 器 上 执行 ， 而 在 高 内 存 、 
专用 硬件 上 执行 。MPP 数据 库存 储 类 似 SQL 接口 的 数据 用 于 交互 和 检索 , 并且 
因为 使 用 内 存 处 理 ， 一 般 都 能 更 快 地 处 理 好 数据 。 这 意味 着 ， 与 在 磁盘 级 别 操 
作 的 Hadoop 不 同 ，MPP 数据 库 将 数据 加 载 到 内 存 中 ， 并 在 集群 中 所 有 节点 的 
内 存 集合 上 进行 操作 。 























1.5 大 数据 生态 系统 组 件 


接 下 来 的 大 数据 之 旅 会 涉及 抽象 的 级 别 层次 ， 以 及 有 关 各 个 级 别 层次 的 组 件 部 分 。 
图 1.2 描绘 了 大 数据 分 析 技 术 栈 的 一 些 常见 组 件 及 彼此 的 集成 。 需要 注意 的 是 , 大 多 数 情 
WLF, HDFS / Hadoop 构成 了 大 部 分 大 数据 中 心 应 用 程序 的 核心 , 但 这 不 是 可 以 推 而 广 之 
的 经 验 法 则 。 


NB 实时 大 数据 分 析 一 一 基于 Storm. Spark 技术 的 实时 应 用 
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通常 而 言 ， 大 数据 包括 如 下 组 件 。 
口 存储 系统 可 以 是 以 下 之 一 。 
> HDFS (Hadoop 分 布 式 文件 系统 的 简称 ) 是 处 理 数据 存储 的 存储 层 ， 即 存 
储 完成 计算 所 需 的 元 数据 。 
> NoSQL 存储 ， 可 以 是 表 式 存储 的 HBase， 抑 或 是 基于 键 值 列 的 Cassandra. 
口 计算 或 逻辑 层 可 以 是 以 下 之 一 。 
> MapReduce: 由 映射 器 (mapper) 和 缩减 器 (reducer) 两 个 单独 进程 组 合 而 
成 。 首 先 执行 的 映射 器 获取 原始 数据 集 并 将 其 转换 为 男 一 个 键 值 数 据 结构 。 
接着 启动 缩减 器 ， 以 映射 器 作业 创建 的 映射 结果 作为 输入 ， 将 其 整理 收敛 
为 较 小 的 数据 集 。 
> Pig: 这 是 另 一 个 Hadoop 顶层 起 处 理 作用 的 平台 ， 既 可 与 MapReduce 结合 
使 用 ， 也 可 作为 MapReduce 的 蔡 代 工具 ， 是 一 种 广泛 用 于 创建 处 理 组件 的 
高 级 语言 ， 这 些 处 理 组 件 被 用 于 分 析 超 大 型 数据 集 。 其 中 一 个 关键 点 是 Pig 
结构 可 按 不 同 程度 的 并 行 性 来 进行 调整 。 在 其 核心 有 一 个 编译 器 ， 可 以 将 
Pig 脚本 转换 为 MapReduce 作业 。 
Pig 得 到 非常 广泛 的 应 用 是 因为 : 
v ”用 Pig Latin 编程 简单 易 行 。 
v ”对 作业 的 优化 高 效 便利 。 
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v 有 具有 扩展 性 。 
OQ ”应 用 逻辑 或 交互 可 以 是 以 下 之 一 。 
> Hive: 这 是 一 个 建立 在 Hadoop 平台 顶部 的 数据 仓库 层 。 简 单 说 来 ，Hive 
提供 了 一 个 非常 类 似 SQL 的 交互 工具 ， 用 这 个 工具 可 以 处 理 和 分 析 Hive 
查询 到 的 HDFS 数据 。 这 使 得 从 RDBMS 世界 向 Hadoop 的 过 渡 更 为 容易 。 
> Cascading: 这 是 一 个 开放 了 数据 处 理 API 集合 和 其 他 组 件 的 框架 ， 可 用 来 
定义 、 共 享 和 执行 Hadoop /大 数据 技术 栈 中 的 数据 处 理 。 基本 上 可 将 其 看 作 
Hadoop 上 一 个 抽象 的 API 层 。 因 为 对 开发 、 作 业 创 建 和 作业 调度 的 便利 支 
持 ， 在 应 用 程序 开发 中 Cascading 被 广泛 采用 。 
口 专业 分 析 数 据 库 ， 如 下 。 
FAW Netezza 或 Greenplum 的 数据 库 具有 向 外 扩展 的 能 力 ， 并 能 够 进行 非常 
快速 的 数据 摄取 和 刷新 操作 ， 这 些 被 认可 的 操作 能 力 正 符合 分 析 模 型 的 强制 
性 要 求 。 
至 此 ， 已 简要 介绍 过 大 数据 技术 栈 和 组 件 ， 接 着 按 顺 序 介绍 服务 于 分 析 应 用 的 通 
用 架构 。 
下 面 讨论 参考 图 13. 
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图 1.3 
从 图 1.3 可 以 看 到 , 分 析 应 用 的 工作 流程 包含 4 个 步骤 , 每 个 步骤 都 有 对 应 的 设计 和 
架构 : 
口 ” 业 务 解决 方案 构建 (数据 集 选择 ) 


“8 实时 大 数据 分 析 一 一 基于 Storm. Spark 技术 的 实时 应 用 


O ”数据 集 处 理 〈 分 析 实 施 ) 

ü “自动 化 解决 方案 

口 “实测 分 析 和 优化 

接着 深入 每 个 步 又 细节 来 了 解 它们 的 工作 原理 。 


15.1 构建 业务 解决 方案 


这 是 任何 分 析 应 用 的 第 一 步 ， 也 是 最 重要 的 步骤 。 在 这 一 步骤 里 ， 有 应 用 程序 架构 
师 和 设计 人 员 们 来 识别 和 决定 分 析 所 需 的 数据 源 ， 这 些 数 据 源 将 为 应 用 程序 提供 输入 数 
据 。 数据 可 能 来 自 客户 端 数据 集 、 第 三 方 或 某 种 静态 /维度 数据 〈 例 如 地 理 坐 标 、 邮 政 编 
码 等 )。 在 设计 解决 方案 时 ， 输 入 数据 可 以 被 分 割 成 业务 过 程 相关 数据 、 业 务 解 决 方案 相 
关 数 据 或 用 于 技术 流程 构建 的 数据 。 一 旦 数据 集 被 识别 ， 就 可 以 开始 下 一 步骤 。 


1.5.2 ”数据 集 处 理 


到 目前 为 止 ， 已 了 解 到 业务 用 例 和 与 之 相关 的 数据 集 。 下 面 的 步骤 是 数据 获取 和 处 
理 。 这 并 非 像 字面 上 看 上 去 那样 轻而易举 。 在 这 一 步骤 里 首先 想到 的 是 获取 过 程 的 应 用 ， 
更 深入 、 全 面 的 架构 是 最 终 要 创建 一 条 ETL (抽取 转换 加 载 的 缩写 ) 管道 。 在 创建 ETL 
期 间 需 要 进行 过 滤 ， 使 得 处 理工 作 仅 应 用 于 有 意义 且 相 关 的 数据 。 这 一 步骤 非常 重要 。 
在 这 里 通过 数据 量 的 减少 可 以 保障 对 有 意义 /有 价值 数据 的 分 析 ， 进 而 兼顾 处 理 速度 和 精 
确 性 这 些 方面 。 一 旦 数据 被 过 滤 ， 就 可 以 继续 进行 数据 集成 ， 在 这 一 步 中 ， 来 自 各 种 数 
据 源 的 被 过 滤 后 的 数据 到 达 数据 集 市 。 再 下 一 步 是 转换 ， 将 数据 转换 为 实体 驱动 表单 ， 
如 Hive, JSON, POJO 等 表格 形式 。 此 阶段 标志 着 ETL 步骤 的 完成 。 系 统 中 获取 到 的 数 
据 已 可 用 于 实际 处 理 。 

根据 用 例 和 给 定 待 分 析 数 据 集 的 持续 时 间 , 要 将 数据 加 载 到 分 析 数 据 集 市 中 。 例 如 ， 
所 登录 的 数据 集 市 里 可 能 包含 有 一 年 的 信用 卡 交易 ， 但 只 需要 其 中 一 天 的 数据 用 来 分 析 。 
也 就 是 说 ， 集 市 登录 时 会 接触 到 一 年 的 有 价值 数据 ， 但 在 集 市 分 析 时 只 用 到 一 天 的 数据 。 
这 种 隔离 至 关 重 要 ， 因 为 这 有 助 于 确定 所 需 的 实时 计算 能 力 以 及 深度 学 习 应 用 可 以 操作 
哪些 数据 。 


1.5.3 ”解决 方案 实施 


下 面 来 实施 解决 方案 的 各 个 方面 ， 并 将 其 集成 到 适合 的 数据 集 市 。 有 如 下 实施 设计 
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和 架构 。 

O 分 析 引 擎 : 在 所 到 达 的 数据 集 市 里 执行 各 种 批 处 理 作业 、 统 计 查 询 或 多 维 数 据 
集 ， 根 据 特定 的 索引 与 方差 特征 建立 起 映射 和 趋势 联系 。 

O ”仪表 板 /工作 台 : 描述 了 若干 关于 某 些 UX (用 户 体验 的 缩写 ) 接口 的 近 实时 信 
息 。 这 些 组 件 通常 在 低 延 迟 、 接 近 实 时 的 分 析 数 据 集 市 上 操作 。 

O “自动 学 习 同 步 机 制 : 作为 完善 的 高 级 分 析 应 用 ， 它 捕获 模式 并 逐步 形成 数据 管 
理 方法 。 举 例 来 说 ， 假 如 用 户 是 风景 区 的 移动 运营 商 ， 很 可 能 对 白天 和 周末 的 
资源 利用 倍加 关注 ， 这 就 需要 及 时 了 解 到 假期 时 段 度假 业务 量 激增 的 情况 ， 因 
此 可 以 将 相关 的 规则 学 习 和 建立 到 数据 集 市 里 ， 并 确保 以 分 析 便 利 的 方式 来 存 
储 和 结构 化 这 些 数据 。 














15.4 呈现 


实现 了 数据 分 析 后 ， 应 用 程序 生命 周期 的 下 一 个 ， 并 且 是 最 重要 的 步 又， 就 是 结果 
的 呈现 /可 视 化 。 根 据 最 终 业 务 用 户 的 目标 受众 ， 可 以 使 用 定制 的 UI 表示 层 、 业 务 洞 察 报 
告 、 仪 表 板 、 图 表 、 图 形 等 来 实现 数据 可 视 化 。 

从 自动 刷新 UI 小 部 件 到 固定 报告 , 再 到 ADO 查询 , 都 可 以 有 各 种 不 同 的 呈现 要 求 。 
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先 来 理解 有 哪些 不 同 种 类 的 处 理 可 应 用 于 数据 分 析 。 可 大 略 分 为 两 类 : 

O ”批量 处 理 

Q ”顺序 或 内 联 处 理 

这 两 大 类 的 关键 区 别 在 于 ， 顺 序 处 理 基 于 每 个 元 组 工作 ， 在 元 组 中 ， 会 在 数据 生成 
或 获取 到 系统 中 时 处 理 数据 事件 。 在 批 处 理 的 情况 下 ， 数 据 处 理 被 批量 执行 。 这 意味 着 
元 组 /事件 不 会 在 生成 或 获取 时 被 处 理 ， 而 是 按照 固定 大 小 的 批量 被 处 理 。 例 如 ， 将 100 
张 信 用 卡 交易 划分 到 各 批量 里 ， 然 后 一 起 合并 处 理 。 

批 处 理 系统 有 如 下 关键 点 : 

ü “批量 的 规模 或 批量 的 边界 

ü 批量 化 (开始 批量 和 终止 批量 ) 

Q ”批量 序列 (取决 于 用 例 要 求 ) 

批量 可 以 通过 规模 的 多 少 来 标识 (可 以 是 x 个 数 的 记录 ， 例 如 100 个 记录 的 批量 )。 
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这 些 批量 可 以 更 为 多 样 化 且 按时 间 范 围 来 划分 ， 例 如 每 小 时 批量 、 每 日 批量 等 。 它 们 可 
以 是 动态 的 和 数据 驱动 的 ， 其 中 可 以 输入 数据 中 的 某 种 特定 序列 /模式 作为 批量 划分 的 开 
始 ， 而 以 另 一 个 特定 序列 /模式 作为 批量 划分 的 结束 标志 。 

一 旦 批量 边界 划分 好 , 所 包含 的 数据 记录 集 就 可 以 通过 添加 报头 / 报 尾 来 标记 成 批量 ， 
也 可 以 用 统一 的 数据 结构 等 方式 将 批量 标识 符 和 数据 记录 集 在 一 起 打包 封装 。 对 于 每 一 
个 已 被 创建 和 分 派 处 理 的 批量 ， 批 处 理 逻辑 还 可 以 执行 备案 记录 操作 。 

在 某 些 特定 用 例 中 ， 需 要 维护 数据 记录 或 序列 的 顺序 ， 这 就 需要 批量 序列 化 。 在 这 
些 专门 的 用 例 场景 中 ， 批 处 理 逻辑 需要 进行 额外 的 处 理 操作 来 进行 批量 序列 化 ， 这 种 情 
况 下 对 于 同样 的 批量 进行 备案 记录 需 格外 小 心 。 

现在 已 经 明白 什么 是 批 处 理 ， 接 下 来 将 明确 什么 是 分 布 式 批 处 理 。 分 布 式 批 处 理 是 
一 种 计算 范式 , 其 中 元 组 /记录 按 批量 划分 后 被 分 发 到 拥有 多 个 节点 /处 理 单元 的 集群 上 进 
行 处 理 。 当 每 个 节点 都 处 理 完 所 分 配 的 批量 后 ， 节 点 处 理 结果 被 收集 汇总 后 形成 最 终结 
果 。 在 今天 的 应 用 程序 编程 中 ， 我 们 习惯 于 大 量 数据 的 处 理 并 要 以 惊人 速度 获得 结果 时 ， 
要 满足 这 些 需 求 已 超出 了 单 节点 计算 机 器 的 能 力 。 因 此 ， 需 要 庞大 的 计算 集群 支持 。 在 
计算 机 理论 中 ， 可 以 通过 两 种 方式 添加 计算 或 存储 能 力 〈 参 见 图 1.4)。 

口 ”通过 为 单个 节点 提升 更 高 计算 能 

口 ”通过 扩充 多 个 节点 来 执行 任务 
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图 1.4 


HEEL (Vertical) 缩放 是 添加 更 多 计算 能 力 的 代表 性 模式 ， 比 如 向 现 有 节点 添加 更 多 
CPU 或 更 多 内 存 ,或 用 更 强大 的 机 器 替换 现 有 节点 。 这 种 模式 在 一 定 程度 上 工作 得 不 错 。 
不 过 在 客户 需求 超过 单 节 点 机 器 可 能 提供 的 最 大 计算 能 力 时 ， 就 会 面临 无 法 解决 的 瓶颈 。 
并 且 这 种 模式 在 缩放 中 有 缺陷 ， 因 为 整个 应 用 程序 都 在 一 台 机 器 上 运行 ， 当 程序 遇 到 一 
个 单 点 故障 时 ， 运 行 便 会 遇 到 困难 。 
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可 以 看 到 垂直 缩放 计算 能 力 有 限制 且 出 错 后 果 严 重 。 高 端 机 器 的 费用 也 很 昂贵 。 所 
以 解决 方案 仍 是 水 平 (Horizontal) 缩放 。 在 使 用 的 计算 集群 中 ， 基 本 计算 能 力 不 限于 单 
个 节点 ， 而 是 来 自 集 群 里 所 有 节点 的 集合 。 在 这 种 模式 中 能 够 运行 可 扩展 的 模型 ， 而 且 
不 会 因 单 点 故障 中 断 应 用 程序 运行 。 

下 面 介 绍 分 布 式 模式 中 的 批 处 理 。 

在 很 长 一 段 时 间 里 ，Hadoop 被 认为 是 大 数据 的 同义词 ， 可 现在 大 数据 已 经 扩展 出 了 
不 同 的 专业 分 支 、 非 Hadoop 的 计算 解决 方案 .从 内 核 来 看 , Hadoop 是 一 个 基于 MapReduce 
原理 来 操作 的 分 布 式 批 处 理 计算 框架 。 

Hadoop 具有 通过 批 处 理 和 并 行 处 理 来 处 理 海 量 数据 的 能 力 。 关 键 是 它 将 重心 从 计算 
移动 到 数据 ， 而 不 像 传统 世界 里 从 数据 移动 到 计算 那样 工作 。 在 集群 节点 上 可 操作 运行 
的 模型 是 水 平 可 缩放 和 防范 故障 的 。 

Hadoop 是 一 种 用 于 离线 批量 数据 处 理 的 解决 方案 。 传 统 意义 上 ，NameNode 属于 单 
点 故障 ， 但 是 更 新 后 的 版 本 和 YARN (Yet Another Resource Negotiator， 另 一 种 资源 协调 
者 ) 实际 上 突破 了 这 一 限制 。 从 计算 角度 而 言 ，YARN HK T MapReduce 和 Hadoop 解 
耦 的 重大 转变 ， 并 提供 了 同 Spark. MPI (Message Processing Interface， 消 息 传递 界面 ) 
等 其 他 实时 并 行 处 理 计算 引擎 的 集成 。 

下 面 介绍 代码 推送 到 数据 。 

到 目前 为 止 ， 一 般 的 计算 模型 所 拥有 的 数据 流程 是 获取 数据 ， 再 移动 到 计算 引擎 中 
去 ， 如 图 1.5 所 示 。 
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图 1.5 
分 布 式 批 处 理 的 出 现 改 变 了 这 种 数据 流程 。 就 像 图 1.6 所 描绘 的 那样 , 分 布 式 批 处 理 
将 这 些 批量 数据 移动 到 计算 引擎 集群 中 的 各 个 节点 。 这 种 转变 带 给 应 用 并 行 处 理 数据 的 
能 力 ， 被 看 作 是 数据 处 理 领 域 的 重要 进步 。 
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图 1.6 


将 数据 移动 到 计算 对 于 低 数据 量 数据 是 有 意义 的 ， 但 对 于 具有 大 量 数 据 计算 的 大 数 
据 用 例 ， 再 将 数据 移动 到 计算 引擎 就 不 一 定 是 一 个 明智 的 方法 ， 因 为 网 络 延迟 可 能 会 对 
整体 处 理 时 间 产 生 巨 大 影响 ， 故 而 Hadoop 通过 创建 批量 的 输入 数据 〈 称 之 为 块 ) 并 将 其 
分 发 到 集群 的 每 个 节点 上 的 方式 实现 了 对 传统 数据 流程 的 改造 。 有 关 过 程 如 图 1.7 所 示 。 





图 1.7 


在 初始 化 阶段 ， 大 数据 文件 被 推送 到 HDFS, 然后 文件 由 Hadoop NameNode (E4 
点 ) 分 割 成 块 ( 或 文件 块 )， 并 放置 在 集群 中 的 单个 DataNode( 从 节点 ) 上 以 进行 并 发 
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处 理 。 

名 为 Job Tracker 的 集群 内 进程 将 执行 代码 或 处 理 移动 到 数据 。 计 算 组 件 包括 了 映射 
器 类 和 缩减 器 类 。 简 单 来 说 ， 映 射 器 类 执行 数据 过 滤 、 转 换 和 分 割 的 工作 。 出 于 本 地 化 
计算 的 实质 特点 ， 映 射 器 实例 仅 处 理 位 于 相同 数据 节点 上 或 位 于 同一 数据 节点 上 的 同 地 
协作 数据 块 。 这 个 概念 被 称 为 数据 局 部 性 或 接近 性 。 一 旦 映射 器 被 执行 ， 它 们 的 输出 被 
转换 到 相应 的 缩减 器 节点 。 从 功能 上 说 ， 缩 减 器 类 是 一 个 用 于 编译 来 自 所 有 节点 映射 器 
处 理 结果 的 聚合 器 。 





1.7 分 布 式 数据 库 (NoSQL) 


之 前 已 经 讨论 过 了 以 Hadoop 实现 由 “数据 到 计算 ”向 “计算 到 数据 ”的 数据 处 理 范 
式 转变 ， 在 概念 层面 上 理解 了 如 何 发 挥 分 布 式 计算 的 力量 ， 接 下 来 将 在 数据 库 层面 上 探 
讨 类 似 的 分 布 式 数据 库 应 用 。 
简单 来 说 ， 数 据 库 实际 上 是 一 种 存储 结构 ， 人 允许 以 非常 结构 化 的 格式 存储 数据 。 在 
内 部 可 以 是 各 种 数据 结构 表示 形式 ， 例 如 平面 文件 、 表 、 块 等 。 现 在 ， 当 谈 及 数据 库 时 ， 
通常 指 的 是 具有 巨大 存储 和 专用 硬件 的 单 /集群 服务 器 类 节点 所 支持 的 操作 ， 因 此 可 以 将 
它 构 想 为 由 集中 控制 单元 所 控制 的 单个 存储 单元 。 
与 一 般 数据 库 相 反 ， 分 布 式 数据 库 是 没有 单个 控制 单元 或 存储 单元 的 数据 库 ， 基 本 
上 是 一 个 具有 同 质 / 异 构 节点 的 集群 ， 数 据 、 执 行 和 编排 的 控制 都 分 布 于 这 个 集群 中 的 所 
有 节点 上 。 为 了 更 好 地 理解 ， 可 以 做 个 类 比 ， 现 在 的 数据 被 分 配 到 多 个 盒子 中 ， 而 不 是 
将 所 有 数据 分 配 到 一 个 巨大 的 盒子 中 。 分 布 式 的 执行 、 对 数据 分 发 的 备案 记录 和 核验 以 
及 检索 处 理由 多 个 控制 单元 负责 管理 。 某 种 程度 上 这 里 不 存在 单一 的 控制 点 或 存储 点 ， 
重点 在 于 这 么 多 分 布 式 节点 可 以 物理 或 虚拟 的 方式 存在 。 
KSS 不 要 将 此 概念 与 并 行 系统 相关 联 , 在 并 行 系统 中 处 理 器 紧密 境 合 且 均 构成 单 
一 数据 库 系 统 ,而 分 布 式 数据 库 系统 是 相对 松散 境 合 的 实体 ,这些 实体 间 不 
存在 物理 组 件 共 享 。 


现在 来 了 解 分 布 式 数据 库 的 差异 性 因素 。 需 要 理解 的 是 ， 由 于 分 布 式 的 自然 特性 ， 

这 些 系统 多 了 额外 的 复杂 性 ， 以 确保 当日 数据 处 理 的 正确 性 和 准确 性 。 如 下 两 个 过 程 起 
着 至 关 重 要 的 作用 。 

口 复 录 (Replication): 这 一 过 程 由 分 布 式 数据 库 的 特殊 组 件 跟踪 。 此 部 分 软件 负 

责 烦 琐 的 备案 记录 工作 ， 这 些 工 作 涵盖 所 有 对 数据 所 进行 的 更 新 /添加 /删除 操 
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作 。 一 旦 所 有 更 改 被 记录 下 来 ， 复 录 过 程 随 之 更 新 ， 以 便 所 有 数据 副本 看 起 来 
一 致 并 代表 真实 的 状态 。 

复制 (Duplication) : 分 布 式 数据 库 的 普及 归功 于 它们 没有 单 点 失败 的 事实 ， 因 
为 故障 情况 发 生 时 总 有 不 少 于 一 个 的 数据 副本 可 用 于 故障 处 理 。 通 常 以 预定 义 
的 间隔 定时 执行 复制 过 程 ， 过 程 中 将 一 个 数据 实例 复制 到 集群 上 的 多 个 位 置 中 。 


这 两 个 过 程 都 确保 在 给 定 的 时 间 点 ， 在 集群 中 存在 多 于 一 个 的 数据 副本 ， 并 且 所 有 
的 数据 副本 都 一 致 表示 数据 的 真实 状态 。 

NoSQL 数据 库 环境 是 一 个 非 关 系 和 分 布 式 为 主 的 数据 库 系统 ， 其 明显 优势 是 可 以 方 
便 对 极其 高 数据 量 、 完 全 不 同 的 数据 类 型 进行 快速 分 析 。 随 着 大 数据 时 代 的 到 来 , NoSQL 
数据 库 已 经 成 为 传统 RDBMS 的 既 便宜 又 可 扩展 的 替代 者 ， 提 供 可 用 性 和 容错 能 力 兼 有 
的 独特 卖点 。 

NoSQL 提供 了 灵活 和 可 扩展 的 概要 模型 ， 增 添 了 可 无 限 伸缩 、 分 布 式 设置 以 及 自由 
同 非 SQL 界面 接口 等 优势 特色 。 

各 种 NoSQL 数据 库 有 如 下 特色 。 





口 


表 1 
a 
a 


键 值 存储 : 此 种 类 型 的 数据 库 属 于 最 不 复杂 的 NoSQL 选项 。 其 USP 可 设计 成 
允许 以 无 模式 的 方法 存储 数据 。 这 种 存储 中 的 所 有 数据 都 包含 索引 键 和 关联 值 
(就 如 名 称 所 示 那 样 ) 。Cassandra、DynamoDB、Azure Table Storage (ATS) 、 
Riak、Berkeley DB 等 都 是 此 类 数据 库 的 常见 范例 。 

列 存储 或 宽 列 存储 : 这 是 针对 标准 数据 库 的 数据 表 在 行 里 存储 数据 的 设计 ， 以 
数据 列 取代 了 数据 行 的 存储 功能 。 它 们 与 基于 行 的 数据 库 完全 相反 ， 这 种 设计 
具有 高 度 可 扩展 性 并 提供 非常 优良 的 性 能 。 此 类 数据 库 的 范例 有 HBase 和 
Hypertable. 

文档 数据 库 : 这 是 对 键 值 存储 基本 概念 的 扩展 ， 其 中 的 文档 更 为 复杂 和 精致 。 
看 似 每 个 文档 都 有 一 个 唯一 的 ID 相关 联 ， 此 ID 用 于 文档 检索 。 这 些 数据 库 可 
以 广泛 应 用 于 面向 文档 信息 的 存储 和 管理 。 此 类 数据 库 的 范例 有 MongoDB 和 
CouchDB. 

图 数据 库 : 顾名思义 ， 它 基于 离散 数学 的 图 论 。 其 设计 能 够 很 好 地 应 用 于 特定 
类 型 数据 ， 此 类 数据 用 图 形 方式 保存 数据 间 的 关系 ， 并 且 数 据 元 素 都 基于 关系 
互 连 。 此 类 数据 库 的 范例 有 Neo4j、polysglot 等 。 

A 列 出 了 可 用 于 适合 NoSQL 数据 库 选择 的 关键 属性 和 特定 维度 。 

第 1 列 : 此 列表 述 了 数据 模型 的 存储 结构 信息 。 

第 2 列 : 此 列 以 低 、 中 和 高 的 级 别 表述 了 分 布 式 数据 库 的 性 能 信息 。 
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O 第 3 列 : 此 列 以 低 、 中 和 高 的 等 级 表述 了 分 布 式 数据 库 扩展 难 易 信 息 。 从 中 可 
看 出 ， 通 过 向 集群 添加 更 多 节点 ， 可 以 轻松 达成 系统 容量 和 处 理 能 力 的 扩展 。 

O 第 4 列 : 此 列表 述 使 用 灵活 性 的 程度 ， 以 及 满足 各 种 结构 化 或 非 结 构 化 数据 和 
用 例 的 能 

口 第 5 列 : 此 列表 述 系统 工作 的 复杂 程度 ， 包 括 在 开发 和 建 模 方面 的 复杂 性 、 操 
作 和 可 维护 方面 的 复杂 性 等 。 
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NoSQL 数据 库 的 优势 


来 看 看 由 传统 的 RDBMS 改 用 NoSQL 数据 库 的 关键 缘由 。 以 下 是 促成 转变 的 关 
素 。 

大 数据 的 到 来 和 增长 : 这 是 推动 NoSQL 发 展 和 转向 使 用 NoSQL 的 主要 因素 
PARE 

高 可 用 性 系统 : 在 当今 竞争 激烈 的 世界 里 ， 宕 机 时 间 可 造成 致命 后 果 。 现 实 的 
业务 应 用 中 总 会 发 生硬 件 故障 ， 不 过 由 于 建立 于 分 布 式 架构 之 上 ，NoSQL 数据 
库 系统 不 存在 可 能 导致 致命 后 果 的 单 点 故障 。 它 们 还 具有 复制 功能 ， 能 确保 在 
一 个 或 多 个 节点 发 生 故 障 时 数据 元 余 的 可 用 性 。 在 这 种 机 制 下 ， 即 使 在 发 生 本 
地 化 故障 的 情况 下 ， 也 可 确保 数据 中 心 的 可 用 性 。 系 统 在 有 高 可 用 性 的 同时 具 
有 水 平 缩放 和 高 性 能 的 保障 。 

位 置 独立 性 : 这 是 指 在 不 考虑 输入 /输出 操作 的 实际 发 生物 理 位 置 情况 下 ， 数 据 
存储 里 执行 读 取 和 写 入 操作 的 能 力 。 同 样 ， 我 们 有 能 力 从 该 位 置 进行 任何 渗透 
写 入 操作 。 此 特性 在 RDBMS 世界 中 是 一 个 难于 实现 的 愿望 ， 既 要 服务 众多 处 
于 不 同 地 理 位 置 的 客户 ， 又 要 保持 数据 的 本 地 快速 访问 。 要 设计 满足 这 样 需求 
的 应 用 程序 时 ，NoSQL 会 是 非常 方便 的 工具 。 

无 模式 数据 模型 : 从 关系 数据 库 管理 系统 (RDBMS) 移 到 NoSQL 数据 库 系 统 
的 主要 动机 之 一 是 处 理 非 结构 化 数据 的 能 力 ， 在 大 多 数 NoSQL 存储 中 都 具备 。 
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关系 数据 模型 基于 表 之 间 定 义 的 严格 关系 ， 由 于 确定 的 列 结构 定义 造成 这 种 定 
义 关系 本 身 非常 严格 。 所 有 关系 归于 一 个 模式 来 组 织 。RDBMS 的 主干 是 结构 ， 
这 正 是 它 最 大 的 限制 ， 因 此 对 于 不 符合 严格 表 结构 的 非 结构 化 数据 的 处 理 和 存 
储 来 说 显得 力不从心 。 相 反 ，NoSQL 数据 模型 没有 任何 结构 ， 使 得 它 可 以 灵活 
地 适应 任何 形式 ， 所 以 被 称 为 无 模式 。 正 由 于 这 种 通用 性 ， 使 得 NoSQL 数据 库 
能 够 接受 结构 化 、 半 结构 化 或 非 结 构 化 数据 。 这 种 灵活 性 也 伴随 着 低 成 本 可 扩 
展 性 和 良好 性 能 的 保障 。 








1.7.2 选择 NoSQL 数据 库 


FA 





做 出 选择 时 可 以 考虑 一 些 具体 的 因素 ， 但 决策 更 多 是 来 自用 例 驱 动 的 ， 且 随 具体 
情况 而 变化 。 数 据 存储 的 迁移 或 选择 是 重要 的 、 有 意识 的 决策 ， 进 行 抉 择 时 可 参照 以 


DODDODDDo3s 


输入 数据 多 样 性 
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至 此 ， 已 经 在 分 布 式 、 批 处 理 系统 的 背景 下 广泛 探讨 了 大 数据 处 理 和 大 数据 持久 性 ， 
接 下 来 探讨 实时 或 准 实时 的 处 理 。 大 数据 处 理 以 离线 批量 模式 处 理 大 量 数据 集 。 对 当前 
最 新 的 数据 集 执行 实时 流 处 理 时 ， 于 现在 或 即将 过 去 的 维度 中 操作 ， 例 如 信用 卡 欺 诈 检 
测 、 安 全 性 威胁 等 。 延 迟 是 这 些 分 析 的 一 个 关键 方面 。 

这 里 的 两 个 操作 的 关键 因素 为 速度 和 延迟 , 这 也 使 Hadoop 及 相关 分 布 式 批 处 理 系统 
有 不 足 之 处 。Hadoop 及 相关 系统 本 为 批 处 理 模 式 提供 支持 而 设计 , 无 法 以 纳 秒 /毫秒 级 别 
的 延迟 来 运行 。 在 像 信用 卡 欺 诈 、 监 控 业 务 活动 等 用 例 中 ， 需 要 几 秒 钟 内 得 到 精确 结果 ， 
因此 需要 一 个 复杂 事件 处 理 〈CEP) 引擎 以 内 电 般 的 速度 来 处 理 和 导出 结果 。 

Storm 最 初 是 来 自 推 特 软件 系统 的 一 个 项 目 ,后 由 Twitter Storm KOZ SA SIN. Apache 
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联盟 并 且 脱 颖 而 出 。 这 一 源 自 内 森 。 马 茨 头 脑 的 创意 现 如 今 被 CDH ( Cloudera's 
Distribution Including Apache Hadoop), HDP (Hortonworks Data Platform) 等 项 目 所 采纳 。 

Apache Storm 是 一 个 高 度 可 扩展 、 分 布 式 、 快 速 、 可 靠 的 实时 计算 系统 ， 用 来 处 理 
高 速 数据 。Cassandra 以 闪电 般 的 快速 读 取 和 写 入 来 补充 计算 能 力 ， 这 是 目前 用 于 Storm 
数据 存储 的 最 佳 搭配 。 它 帮助 开发 人 员 创建 一 个 数据 流 模 型 ， 其 中 元 组 持续 流 过 由 处 理 
组 件 集合 而 成 的 拓扑 结构 。 可 以 使 用 Kafka、RabbitMQ 等 分 布 式 消息 队列 将 数据 提取 到 
Storm Œ. Trident 是 Storm 的 另 一 个 抽象 API 层 ， 带 来 微小 批 处 理 的 能 

下 面 介绍 在 不 同 工 业 领域 中 的 几 个 实时 、 真 实用 例 。 


1.8.1 电信 或 移动 通信 场景 


现在 ， 手 机 已 不 再 仅 是 呼叫 设备 。 事 实 上 ， 它 们 已 经 从 手持 电话 演变 为 智能 手机 ， 
不 仅 提供 呼叫 访问 ， 而 且 为 消费 者 提供 数据 、 照 片 、 跟 踪 、GPS 等 便利 服务 。 现 在 手机 
或 电话 产生 的 数据 不 只 是 通话 数据 ， 诸 如 典型 的 CDR《〈 呼 叫 数据 记录 ) 捕获 语音 、 数 据 
和 SMS 消息 。 语 音 和 SMS 消息 已 经 存在 了 十 多 年 ， 并 且 主 要 是 结构 化 的 ， 因 为 它们 符 
A CIBER. SMPP. SMSC 等 世界 范围 内 通行 的 电信 协议 规范 。 然 而 这 些 智能 设备 里 的 
BOM IP 流量 是 十 分 非 结 构 化 的 和 高 数据 量 的 。 这 些 数 据 可 能 是 音乐 、 图 片 、 推 特 文字 
或 者 只 是 数据 维度 中 的 任意 内 容 。 CDR 处 理 和 计 费 通常 是 一 个 批 处 理 作业 , 但 很 多 其 他 
事情 是 实时 的 。 
O ”设备 的 地 理 跟踪 您 是 否 注意 过 我 们 跨越 国家 边界 时 收 到 短信 的 速度 如 何 ? 
O ”使 用 情况 和 警报: 当 收 到 宽带 消费 限额 和 建议 充值 的 警报 时 ， 您 是 否 注 意 到 所 
收 到 消息 的 准确 性 和 有 效 性 ? 
O ”移动 预付 费 卡 : 如 果 曾 经 使 用 过 预付 费 系统 ， 您 一 定 会 对 他 们 所 用 的 超 高 效 收 
费 跟踪 系统 有 深刻 印象 。 


1.8.2 ”运输 和 物流 




















运输 和 物流 是 另 一 处 可 用 场景 ， 这 里 对 车 辆 数据 的 实时 分 析 可 服务 于 运输 、 物 流 和 
智能 交通 管理 。 这 里 有 来 自 麦 金 尼 报道 的 一 个 例子 ， 报 道中 详细 介绍 了 大 数据 和 实时 分 
析 如 何 帮 助 处 理 以 色 列 首都 主干 高 速 公路 上 的 交通 拥堵 。 实 际 情况 是 这 样 的 : 收费 点 的 
收费 监控 始终 不 断 ， 高 峰 时 段 为 避免 拥堵 会 提高 收费 价格 ， 作 为 对 用 户 的 分 流 措施 ; 一 
且 非 高 峰 时 段 拥堵 缓和 ， 收 费 价 格 就 会 降低 。 

会 有 更 多 的 用 例 可 以 围绕 着 检查 岗 /收费 亭 的 数据 进行 构建 ， 用 以 开发 交通 智能 管理 
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从 而 防止 拥塞 ， 促 进 公共 基础 设施 的 更 好 利用 。 
183 互联 的 车 辆 


过 去 十 年 以 来 ， 不 少 有 前 瞻 眼 光 的 想法 已 成 为 现实 。 如 今 GPS 和 谷歌 地 图 早已 不 是 
新 鲜 事物 ， 它 们 提供 的 实用 功能 被 接受 和 频繁 使 用 。 

我 家 汽车 的 控制 单元 装 有 和 遥 测 设备 ， 能 捕获 诸如 发 动机 温度 、 燃 料 消耗 模式 、RPM 
等 各 种 KPI (关键 绩效 指标 的 缩写 )， 所 有 这 些 信息 可 被 制造 商用 于 分 析 。 在 某 些 情况 下 
还 允许 用 户 在 这 些 KPI 闵 值 上 设置 和 接收 警报 。 


1.8.4 金融 部 门 


显而易见 ， 金 融 部 门 正在 成 为 实时 分 析 最 大 的 消费 者 。 其 应 用 场景 中 数据 量 巨大 且 
快速 变化 ， 而 且 分 析 过 程 及 对 结果 的 印象 会 在 货币 方面 产生 深远 效应 。 因 此 ， 这 个 部 门 
需要 应 用 实时 工具 对 来 自 证 券 交易 所 、 各 种 金融 机 构 、 市 场 价格 和 波动 等 方面 的 数据 进 
行 快速 且 精确 的 数据 分 析 。 
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本 章 探讨 了 大 数据 技术 领域 的 各 个 方面 。 已 经 讨论 过 大 数据 环境 中 所 使 用 的 主要 术 
语 、 定 义 、 缩 略语 、 组 件 和 基础 设施 ， 还 描述 了 大 数据 分 析 平台 的 架构 。 此 外 ， 还 从 顺 
序 处 理 到 批 处 理 ， 到 分 布 式 ， 再 到 实时 处 理 探讨 了 大 数据 的 各 种 进深 计算 方法 。 在 本 章 
结尾 ， 相 信 读 者 现在 已 经 熟悉 了 大 数据 及 其 特点 。 

在 下 一 章 中 , 将 展开 实时 技术 一 一 Storm 的 旅程 ， 读 者 将 看 到 它 如 何在 实时 分 析 领 域 
中 尽 其 所 长 。 
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本 章 重 点 在 于 帮助 读者 熟悉 Storm 并 顺利 启动 Storm. 应 用 开发 之 旅 。 本 章 介绍 了 
Apache Storm 的 基本 概念 和 架构 ， 且 以 用 例 说 明 如 何 将 Storm 用 于 实时 大 数据 分 析 。 
在 本 章 将 讨论 以 下 主题 : 
Storm 概述 
Storm 的 发 展 
Storm 的 抽象 概念 
Storm 的 架构 及 其 组 件 
如 何以 及 何 时 使 用 Storm 
Storm 的 内 部 特性 

















oooooo 


2.1 Storm 概述 


如 要 对 Storm 以 一 句 话 来 概括 ， 当 然 是 众所周知 的 “Storm 是 实时 版 的 Hadoop ”。 
Hadoop 为 大 数据 的 数据 量 维度 提供 了 解决 方案 ， 不 过 其 本 质 上 是 一 个 批 处 理 平台 ， 并 没 
有 带 来 速度 和 即时 结果 /分 析 需 求 的 解决 之 道 。 尽 管 Hadoop 已 经 成 为 数据 存储 和 计算 领 
域 的 转折 点 ， 但 仍 不 能 解决 需要 实时 分 析 和 结果 的 问题 。 

Storm 正 是 定位 于 大 数据 速度 方面 需求 的 解决 方案 。 该 框架 对 实时 流 数据 能 够 以 闪电 
般 的 速度 执行 分 布 式 计算 处 理 。 作 为 一 种 广泛 使 用 的 解决 方案 ， 它 可 用 于 为 高 速 流 数据 
提供 实时 警报 和 分 析 。Storm 是 归属 于 Apache 基金 会 的 一 个 项 目 ， 其 功能 得 到 认可 并 为 
人 知晓 。 遵 循 Apache 项 目的 许可 规范 ，Storm 是 免费 和 开源 的 。 它 是 一 个 分 布 式 计算 引 
擎 ， 具 有 高 度 可 扩展 性 、 可 靠 性 和 容错 性 且 具 备 保障 处 理 机 制 ， 能 够 处 理 无 界 流 媒体 数 
据 、 提 供 扩展 性 的 计算 及 顶部 上 的 小 微 批 处 理工 具 。 

Storm 可 为 非常 宽泛 的 用 例 场 合 提供 解决 方案 , 范围 包括 警报 和 实时 业务 分 析 、 机 器 
学 习 和 ETL 用 例 ， 以 及 诸如 此 类 的 一 些 方 案 。 

Storm 广泛 兼容 各 种 各 样 的 输入 和 输出 端点 集成 。 对 于 输入 数据 ， 它 可 以 同 
RabbitMQ、JMS、Kafka、Krestel、Amazon Kinesis 等 领先 的 队列 管理 机 制 良好 配搭 。 对 
于 输出 端点 , 它 同 如 Oracle 和 MySQL 这 样 的 主流 传统 数据 库 连 接 良好 。Storm 的 适应 性 
不 限于 传统 的 RDBMS 系统 , 它 与 Cassandra、HBase 等 大 数据 存储 亦 有 着 非常 好 的 接口 。 
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上 述 所 有 功能 使 得 Storm 在 提供 实时 解决 方案 方面 成 为 最 受 欢迎 的 框架 。Storm 是 高 
速 数 据 处 理 的 完美 选择 。 图 2.1 很 好 地 描述 了 Storm 以 黑箱 方式 呈现 的 功能 。 








No SQL/ 85 data Stores 








Traditional RDBMS 
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Tf f Storm 的 功能 后 ， 下 面 通过 这 个 奇迹 般 精 彩 的 工程 的 历史 来 了 解 一 下 大 框架 的 
构建 和 由 小 实验 演变 为 巨大 成 功 的 过 程 。 下 面 一 些 Storm 的 发 展 历程 介绍 摘录 自 Nathan 
Marz 的 博客 Chttp://nathanmarz.com/blog/history-of-apache-storm-and-lessons-learned.html) . 

Storm 是 Nathan 头脑 灵光 一 现 的 产物 ， 照 他 的 话说 ， 任 何 成 功 的 创意 都 源 自 两 个 重 
要 方面 (尽管 Nathan 在 Storm 背景 下 这 样 说 ， 本 人 理解 这 些 通用 道理 可 以 导向 任何 创造 
发 明 的 成 功 ): 

O ”应 该 有 一 个 真正 的 问题 是 这 个 解决 方案 /发 明 可 以 有 效 解决 的 。 

Q ”必须 有 足够 多 的 人 相信 这 个 解决 方案 /发 明 是 处 理 该 问题 的 工具 。 

促成 Storm 构想 产生 的 问题 是 实时 分 析 解 决 方案 ， 实 时 分 析 方 案 要 用 于 2010 一 2011 
年 社交 媒体 数据 分 析 和 为 商业 机 构 提 供 参考 。 进 一 步 说 来 ， 既 然 已 存在 一 些 现成 解决 方 
案 ， 是 什么 因素 促成 Storm 这 样 的 框架 出 现 呢 ?长 话 短 说 ,俗语 有 云 “ 美 好 的 事物 都 有 
终结 的 一 天 ”， 进 而 “所 有 好 的 解决 方案 会 深入 解决 问题 ， 最 终 会 完成 使 命 而 结束 ”。 这 
里 的 情况 是 ， 如 BackType 之 类 现成 的 解决 方案 非常 复杂 ， 既 做 不 到 有 效 地 扩展 ， 业 务 逻 
辑 又 被 生 搬 硬 套 到 应 用 程序 框架 中 ， 从 而 使 得 开发 人 员 的 生计 面临 更 大 的 挑战 。 这 些 现 
成 方案 实际 上 使 用 同一 套 解决 思路 : 来 自 Twitter Firehose 的 数据 先 被 推送 到 一 组 队列 里 ， 
并 且 有 Python 进程 来 订阅 、 读 取 和 反 序 列 化 这 些 队列 ， 然 后 将 它们 发 布 到 其 他 队列 和 工 
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作者 进程 上 。 虽 然 应 用 程序 有 一 组 分 布 式 的 工作 者 进程 和 代理 ， 编 排 和 管理 仍然 是 非常 
乏味 和 复杂 的 代码 段 工 作 。 
步骤 1 
在 Nathan Marz 开始 构思 时 ， 首 先 想到 以 下 几 个 抽象 的 概念 。 
O 流 : 这 是 对 无 休止 事件 的 分 布 式 抽象 ， 具 有 并 行 生成 和 处 理 的 能 力 。 
Q Spout: 这 是 生成 Stream 的 抽象 组 件 。 
Q Bolt: 这 是 处 理 Stream 的 抽象 组 件 。 
步骤 2 
抽象 到 位 后 ， 落 实 想法 的 重大 突破 在 于 下 面 的 实际 解决 方案 中 : 
O 在 中 间 层 配置 了 代理 broker 方案 。 
口 ” 实 现实 时 范式 ， 同 时 要 兼顾 处 理 有 效 性 保障 的 解决 方案 。 
从 上 述 两 方面 落实 的 解决 方案 指明 了 为 框架 构建 最 为 智能 化 组 件 的 愿景 。 此 后 项 目 
便 走 上 了 成 功 的 规划 之 路 。 当 然 ， 后 续 工 作 依 然 不 简单 ， 但 愿景 、 思 路 和 想法 已 经 到 位 。 
大 约 5 个 月 的 时 间 后 第 一 个 版 本 成 形 。 如 下 几 个 关键 方面 是 从 一 开始 就 被 牢记 的 : 
口 它 是 开源 的 。 
QO ” 它 的 所 有 API 都 使 用 Java 语言 编写 ,这 样 可 让 大 多 数 社区 和 应 用 程序 轻松 访问 。 
O CEH Cojure 语言 来 开发 ， 这 样 项 目 开发 快速 而 且 高 效 。 
口 ” 它 应 该 使 用 Thrift 数据 结构 ， 这 样 能 为 非 JVM 平台 和 应 用 程序 提供 可 用 性 。 
2011 4E 5 月 ，BackType 被 推 特 收购 ，Storm 顺理成章 成 为 推 特 强 大 产品 库 中 的 亮点 。 
Storm 于 2011 年 9 月 正式 发 布 ,很 快 被 行业 欣然 接受 ,后 来 被 诸如 Apache, HDP, Microsoft 
等 业内 巨头 所 采用 。 
以 上 就 是 Apache Storm 发 展 过 程 的 简短 概要 。Storm 之 所 以 获得 成 功 ， 是 因为 在 那 
个 时 间 点 没有 其 他 工具 、 技 术 或 框架 可 以 提供 如 下 6 个 KPI. 
O PERE: Storm 最 适合 大 数据 的 高 速 维度 ,其 中 以 非常 高 速率 到 达 的 数据 必须 依照 
PERE SLA CARS SAIL) 在 秒 级 时 间 处 理 好 。 
O 可 扩展 性 : 这 是 Storm 成 功 关键 的 另 一 个 维度 。 它 提供 具有 线性 可 扩展 性 的 大 
规模 并 行 处 理 支持 。 这 使 得 系统 构建 很 容易 ， 并 且 可 以 根据 业务 需求 来 轻松 放 
大 /缩小 。 
O ”故障 安全 : 这 是 Storm 的 另 一 个 特色 。 它 是 分 布 式 的 ， 并 且 有 容错 的 优点 。 这 
意味 着 如 果 集 群 的 某 个 组 件 或 节点 发 生 故 障 ， 应 用 程序 将 不 会 关闭 或 停止 处 理 
工作 。 相 同 的 过 程 或 工作 单元 将 由 另外 节点 上 的 某 个 其 他 工作 者 来 处 理 ， 这 样 
即使 发 生 故障 ， 工 作 依然 能 够 无 终 、 顺 利 地 进行 。 
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口 ”可靠 性 : 这 个 框架 提供 由 应 用 程序 一 次 性 处 理 好 每 个 事件 的 能 

口 简单 : 这 个 框架 建立 在 非常 符合 逻辑 的 抽象 基础 上 ， 很 容易 被 理解 和 认识 。 
此 ， 采 用 或 迁移 到 Storm 相当 轻松 ， 这 是 其 获得 显著 成 功 的 关键 属性 之 一 。 

口 开源 : 这 是 软件 框架 所 提供 的 最 为 有 利 的 功能 一 一 这 样 一 个 可 靠 和 可 扩展 的 优 
秀 软 件 工程 却 没有 许可 费 要 求 。 

在 了 解 了 Storm 发 展 概要 之 后 ， 再 学 习 一 些 Storm 的 抽象 概念 ， 然 后 深入 了 解 。 








2.5 Storm 的 抽象 概念 


前 面 了 解 过 Storm 的 诞生 以 及 如 何 从 BackType Storm 到 Twitter Storm， 再 到 Apache 
Storm 的 发 展 历程 ， 在 这 一 部 分 中 ， 将 介绍 Storm 中 的 某 些 抽象 概念 内 容 。 


2.3.4 流 


流 (stream) 是 Storm 最 为 基本 的 抽象 和 核心 概念 之 一 。 基 本 上 它 是 无 界 的 〈 无 开始 
或 结束 序列 ) 的 数据 。 在 Storm 框架 中 ， 假 设 可 以 并 行 创建 流 并 且 由 一 组 分 布 式 组 件 并 
行 处 理 。 流 的 概念 可 以 同 合作 关联 数据 流 来 进行 类 比 。 
在 Storm 的 上 下 文 环境 中 ， 流 是 元 组 或 数据 的 无 尽 序列 。 元 组 〈tuple) 是 包括 键 / 值 
对 的 数据 。 这 些 流 符合 模式 规范 。 这 里 的 模式 就 像 一 个 模板 ， 该 模板 用 于 解释 和 理解 流 
中 的 数据 /元 组 ， 并 具有 诸如 字段 之 类 的 规范 。 字 段 可 以 有 如 整数 、 长 整 型 、 字 节 、 字 符 
串 、 布 尔 值 、 双 精度 等 原始 数据 类 型 。 同 时 ，Storm 为 开发 人 员 提 供 了 一 些 便利 功能 ， 支 
持 他 们 编写 自己 的 序列 化 程序 来 实现 对 自 定 义 数 据 类 型 的 支持 。 
O Tupe: 这 些 是 形成 流 的 数据 ,是 Storm 的 核心 数据 结构 ， 是 backtype.storm.tuple 
包 下 的 一 个 接口 。 
OQ OutputFieldsDeclarer: 这 是 backtype.storm.topology 下 的 一 个 接口 ， 用 于 定义 模 
式 并 声明 相应 的 流 。 


2.3.2 拓扑 





整个 Storm 应 用 程序 被 一 起 打包 封装 成 Storm 拓扑 〈topology)。 这 个 抽象 概念 可 以 
[E] MapReduce 构建 的 作业 相 类 比 。 唯 一 的 区 别 是 MapReduce 作业 终止 时 ，Storm 拓扑 依 
然 在 运行 。 由 于 要 处 理 持续 不 断 的 数据 流 ， 若 非 人 为 终止 ，Storm 拓扑 不 会 结束 运行 。 因 
此 ， 拓 扑 永远 持续 工作 来 处 理 所 有 传 入 的 元 组 数据 。 
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拓扑 实际 上 是 DAG (有 向 非 循环 图 )， 其 中 组 成 节点 spout 和 bolt (后续 即 将 介绍 的 
两 个 Storm 抽象 概念 一 一 译 者 注 ) 同 数据 流 都 是 图 的 边缘 。Storm 拓扑 基本 上 是 Thrift 
结构 ， 有 一 套 封装 好 的 Java API 可 以 访问 和 操作 它们 。 用 于 创建 和 提交 拓扑 的 公开 Java 
API 模板 类 名 为 TopologyBuilder。 


2.3.8 Spout 


在 描述 拓扑 时 ， 谈 到 了 Storm 的 Spout 抽象 。 在 拓扑 DAG 中 有 两 种 类 型 的 节点 元 
素 ， 其 中 之 一 是 Spout， 也 就 是 到 拓扑 中 的 数据 流 馈线 。 这 些 是 连接 到 队列 中 外 部 源 的 组 
件 , 并 从 中 读 取 元 组 后 将 其 推 入 拓扑 以 进行 处 理 。 实 质 上 拓扑 对 元 组 进行 操作 , 因此 DAG 
总 是 从 一 个 或 多 个 Spout 开始 ， 基 本 上 这 些 Spout 是 使 得 元 组 进入 系统 的 源 元 素 。 

Storm 框架 中 Spout 有 两 种 风格 : 可 靠 和 不 可 靠 。 两 种 Spout 的 功能 名 副 其 实 。 可 靠 
Spout 通过 确认 的 方法 记 住 它 推送 到 拓扑 中 去 的 所 有 元 组 ， 因 此 可 做 到 重 放 失 败 的 元 组 。 
不 可 靠 Spout 不 记忆 或 跟踪 它 推 入 拓扑 中 的 元 组 ， 因 此 不 可 能 重 放 失 败 的 元 组 。 

O IRichSpout: 此 接口 用 于 Spout 的 执行 。 

O declareStream(): 这 是 一 个 在 OutputFieldsDeclarer 接口 下 的 方法 ， 用 于 指定 和 绑 

定数 据 流 stream 发 送 到 Spout. 
O emit): 这 是 一 个 SpoutOutputCollector 类 的 方法 ， 创 建 时 旨 在 结合 Java API 以 
从 IRichSpout 实例 发 送出 元 组 。 

口 nextTuple(): 这 是 连续 调用 Spout 的 流水 线 方法 。 当 有 从 外 部 源 读 取 到 的 元 组 时 ， 
和 先前 一 样 将 元 组 发 送 到 拓扑 中 ， 否 则 简单 返回 。 

O ack): 当 拓 扑 成 功 处 理发 送 的 元 组 时 ， 此 方法 由 Storm 框架 调用 。 

O fail): 当 发 送 元 组 的 拓扑 处 理 失败 时 ， 此 方法 由 Spout 调用 。 可 靠 Spout 会 将 失 
败 的 元 组 排队 后 重 放 。 




















2.3.4 Bolt 


Bolt 是 存在 于 Storm 拓扑 中 的 第 二 种 节点 。 Storm 框架 中 这 些 抽象 组 件 基本 都 是 处 
理 过 程 的 关键 参与 者 。 它 们 是 在 拓扑 中 执行 处 理 的 组 件 。 因 此 ， 它 们 是 所 有 迪 辑 、 处 理 、 
合并 和 转换 的 中 心 。 

Bolt 订阅 输入 元 组 组 成 的 流 ， 一 旦 完成 执行 逻辑 ， 就 将 处 理 后 的 元 组 发 送 到 流 。 这 
理 组 件 具有 订阅 和 发 送 到 多 个 流 的 能 





Ig 
E 





。24 。 


a 


a 


实时 大 数据 分 析 一 一 基于 Storm. Spark 技术 的 实时 应 用 


declareStream(): 这 一 方法 来 自 于 OutputFieldsDeclarer， 可 用 来 声明 特定 Bolt 将 
发 送 到 的 所 有 流 。 请 注意 ， 发 送 到 流 的 Bolt 与 在 流 上 进行 发 送 的 Spout 功能 方 
面 是 一 致 的 。 

emit(): |F] Spout 相似 ，Bolt 也 使 用 一 个 emit 方法 发 送 到 流 中 ， 但 这 里 的 区 别 在 
于 ， 这 个 Bolt 是 从 OutputCollector 调用 emit 方法 。 

InputDeclarer: 此 接口 具有 用 于 定义 各 种 分 组 (在 stream 上 的 订阅 ) 的 方法 ， 这 
些 分 组 控制 Bolt 与 输入 流 的 绑 定 ， 从 而 确保 Bolt 基于 分 组 中 的 定义 从 流 读 取 
元 组 。 

execute(): 这 一 方法 是 所 有 处 理 的 关键 所 在 , 并 为 Bolt 的 每 个 输入 元 组 执行 。 一 
H Bolt 完成 处 理 ， 将 调用 ack0 方 法 。 

IRichBolt 和 IBasicBolt: 这 些 是 Storm 框架 提供 的 用 于 Bolt 实现 的 两 个 接口 。 





现在 已 经 了 解 到 Storm 有 关 的 基本 抽象 范式 及 其 功能 ， 其 概括 总 结 如 图 2.2 所 示 。 


2.3.5 








— Topology 





Spout : It is the source of the stream 
Tuple: The input datum that flows on the stream . In simplest form its key value pair. 


Bolt : consumer of streams , that does the processing 


Topology : The directed acyclic computation graph whose nodes are bolts and spouts and edges are the 
streams. 








图 2.2 


任务 


在 Bolt 和 Spout 内 部 ， 实 际 处 理 任 务 被 分 成 较 小 的 工作 项 后 再 并 行 执行 或 计算 。 这 
些 实际 在 Bolt 或 Spout 内 负责 实际 计算 的 执行 线程 被 称 为 任务 (task)。 一 个 Bolt 和 Spout 
可 以 产生 任意 数量 的 task 当然， 每 个 节点 在 RAM 和 CPU 方面 都 会 有 资源 限制 ， 但 框 
架 本 身 不 对 此 作 任 何 限制 )。 
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236 工作 者 


这 些 工作 者 程序 是 为 满足 拓扑 执行 需要 而 产生 的 进程 。 每 个 工作 者 与 拓扑 中 的 其 他 
工作 者 分 开 执 行 ， 并 且 为 实现 这 一 点 在 不 同 的 JVM 中 执行 。 





2.4 Storm 的 架构 及 其 组 件 


之 前 已 经 充分 讨论 了 Storm 的 发 展 历史 和 抽象 概念 理论 ， 现 在 是 时 候 深入 探索 执行 
中 的 框架 并 结合 实际 代码 来 体会 Stom 的 实践 效果 了 ， 此 时 距离 实践 只 有 一 步 之 遥 。 在 
此 之 前 ， 先 来 了 解 让 Storm 发 挥 作用 的 是 哪些 组 件 ， 以 及 它们 在 框架 构建 和 编排 中 的 贡 
献 是 什么 。 
Storm 有 两 种 工作 执行 风格 。 
O 本 地 模式 ， 这 是 一 个 通常 用 于 演示 和 测试 的 单 节点 及 非 分 布 式 设置 。 这 里 ， 整 
个 拓扑 在 单个 工作 者 中 执行 ， 因 此 是 单个 JVM。 
O 分布 式 模式 ， 这 是 一 个 完全 或 部 分 分 布 式 的 多 节点 设置 ， 也 是 实时 应 用 程序 开 
发 和 部 署 的 推荐 模式 。 
这 些 模式 的 具体 说 明 可 以 参见 Apache Storm 网 站 Chttps://storm.apache.org/documentation/ 
Setting-up-a-Storm-cluster.html)。 典 型 的 Storm 安装 包含 如 下 一 些 组 件 。 


2.4.1 Zookeeper 集群 


Zookeeper 实际 上 是 Storm 的 编排 引擎 和 备案 记录 。 实 际 上 ，Zookeeper 做 了 所 有 的 
协调 工作 ， 像 拓扑 提交 、 工 作者 创建 、 跟 踪 并 检查 死 节点 和 进程 以 及 在 主管 〈supervisor) 
程序 或 工作 者 程序 进程 失败 的 情况 下 重新 启动 集群 里 备用 进程 的 执行 。 


24.2 Storm 集群 


Storm 集群 通常 在 多 个 节点 上 安装 ， 其 中 包括 以 下 进程 。 

Q Nimbus: 这 是 Storm 框架 的 主 进程 , 可 被 看 作 类似 于 Hadoop 的 JobTracker。 它 
是 拥有 拓扑 提交 任务 的 进程 ， 并 将 整个 代码 包 分 发 到 集群 的 所 有 其 他 主管 节点 
E. Nimbus 还 将 工作 者 分 派 给 集群 中 的 各 个 主管 节点 。Storm 集群 都 有 一 个 
Nimbus 守护 进程 。 
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Q Supervisors 主管 : 这 些 是 负责 实际 处 理工 作 的 进程 。Storm 集群 通常 有 多 个 主管 
管理 程序 。 一旦 拓扑 被 提交 给 Nimbus 并 且 完 成 工作 者 分 配 , 主管 节点 内 的 工作 
者 将 进行 所 有 的 处 理 ， 而 且 这 些 工作 者 由 主管 节点 守护 进程 启动 。 

Q UL Storm 框架 提供 如 图 2.3 所 示 基 于 浏览 器 的 界面 来 监视 集群 和 各 种 拓扑 。 集 
群 中 的 任何 一 个 节点 上 都 必须 启动 UI 进程 ， 并 且 网 址 Chttp://ui-node-ip:8080 ) 
上 的 Web 应 用 可 以 正常 访问 。 
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图 2.3 


现在 已 经 了 解 到 Storm 集群 的 各 种 工作 进程 和 组 件 ， 下 面 继续 探索 各 种 可 迁移 的 部 
分 功能 如 何 一 起 运行 ， 以 及 当 拓 扑 提交 到 集群 时 会 发 生 什 么 情况 。 


参照 如 图 2.4 所 示 的 框图 。 
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图 2.4 描述 了 以 下 内 容 。 


u 
u 


Nimbus: 它 是 集群 的 主 Storm 进程 ， 实 质 上 是 一 个 Thrift 服务 器 。 

这 里 有 Storm 守护 程序 ， 其 中 的 拓扑 由 Storm 提交 程序 提交 。 代 码 分 发 (JAR 
文件 及 其 所 有 依赖 文件 ) 是 以 从 该 节点 到 集群 所 有 其 他 节点 的 方式 来 完成 的 。 此 
节点 设置 有 关 集 群 和 拓扑 的 所 有 静态 信息 ， 并 且 还 分 配 所 有 工作 者 并 启动 拓扑 。 
此 进程 还 会 对 集群 中 的 故障 情况 进行 检查 和 监视 。 如 果 主 管 节点 关闭 ，Nimbus 
将 在 该 节点 上 执行 的 任务 重新 分 配给 集群 中 的 其 他 节点 。 

Zookeeper: 一 旦 提交 拓扑 〈 提 交 到 ISON 和 Thrift 中 的 Nimbus Thrift 服务 器 ) ， 
Zookeeper 会 捕获 所 有 工作 者 分 配 ， 从 而 跟踪 集群 中 的 所 有 处 理 组 件 。 
Zookeeper 为 所 有 工作 者 进程 执行 集群 同步 和 轨迹 跟踪 。 

此 机 制 确 保 在 提交 拓扑 后 ， 如 果 Nimbus 断 开 ， 因 为 有 着 Zookeeper 跟踪 到 的 协 
同和 轨迹 情况 ， 所 以 拓扑 操作 仍 将 继续 正常 工作 。 

Supervisor: 这 是 来 自 Nimbus 负责 作业 处 理 的 节点 ， 并 以 所 分 配 时 一 致 的 安排 
来 执行 工作 者 进程 。 

Worker: 这 是 在 主管 节点 内 执行 的 进程 ， 分 配给 它们 的 作业 是 执行 和 完成 拓扑 
工作 的 一 部 分 。 

Executor: 这 是 Java 线程 ， 由 JVM 中 的 工作 者 进程 生成 以 处 理 拓扑 工作 。 
Task: 这 是 执行 者 中 的 实例 或 组 件 ， 其 中 有 工作 实际 发 生 或 处 理 完成 。 




















2.5 如 何以 及 何 时 使 用 Storm 


熟悉 工具 或 技术 的 最 快 方式 是 直接 去 实践 ;前面 已 经 做 了 很 多 理论 上 的 讨论 ， 还 没 
有 涉及 实际 操作 来 享受 实践 的 乐趣 。 下 面 将 从 基本 的 字 词 计数 拓扑 开始 ， 笔 者 有 在 Linux 
上 使 用 Storm 的 丰富 经 验 ， 并 且 有 很 多 在 线 资料 可 参考 ， 也 曾 使 用 Windows. 虚拟 机 来 执 
行 字 计 数 拓扑 。 这 里 有 几 个 先决 条 件 : 


口 
口 
口 


apache-storm-0.9.5-sre 
JDK 1.6+ 

Python 2.x (分享 一 次 从 错误 中 得 到 的 教训 。 笔 者 的 Ubuntu 上 一 直 使 用 Python 
而 且 从 来 没 遇 到 任何 麻烦 。 一 次 字数 统计 时 ， 笔 者 使 用 Python 脚本 来 拆 分 句子 ， 
当时 配置 了 最 新 版 本 的 Python 3, 但 后 来 发 现 , 只 有 2.x 版 Python 可 以 兼容 使 用 ) 


Maven 





Eclipse 


。28 。 





接着 要 对 如 下 系统 环境 变量 进行 精确 设置 : 
口 JAVA HOME 

Q MVN HOME 

Q PATH 
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系统 环境 变量 PATH 的 设置 里 应 包含 机 器 上 已 有 Python 程序 的 安装 路 径 ， 如 图 2.5 
所 示 。 





System Properties 


Computer Name | Hardware Advanced System Protection | Remote 


Environment Variables Ea 


User vartables for shilpl.saxena 
Varlable Vah 
TEMP 








New. Edit Delete. 





New Edt Delete 


ox Concel 








YE 


2.5 


下 需要 交叉 检查 一 切 设置 是 否 准确 有 效 , 可 在 命令 提示 符 下 
并 核 对 输出 结果 。 

axena>java -version 

To. 
Java(TM) SE Runtime Environment (build 1.7.0_ b02) 


Java HotSpot(TM) 64-Bit Server UM (build 23 1, mixed mode) 


\shilpi.saxena>mun -version 


Java version: 1.7.0_17, vendor: Oracle Corporation 

Java home: c:\Program Files\Java\jdk1.7.0_17\jre 

Default locale: en US. platform encoding: Cp1252 

oS name: “windows 8", version: "6.2", arch: “amd64", fami 


c hi lpi .saxena>python --uersion 
Python 2.7.10 





7994129775791599e295a5524ec3e9dfe41d4a96; 2015- 


Maven home: E:\softwares\maven\apache-maven 3-bin\apache-maven- 





站 输入 执行 如 图 2.6 所 示 的 


94-22T17:27 


3.3.3\bin\.. 
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现在 通过 设置 将 Storm 起 始 项 目 导 入 Eclipse 中 并 查看 其 执行 效果 。 如 图 2.7 所 示 的 
截图 描述 了 从 Storm 源 包 中 导入 并 实现 字 词 计数 拓扑 所 要 执行 的 步骤 。 





Import 


















Select 
Import Existing Maven Projects 


Select an import source: 


type filter text 
El Check out Maven Projects from SCM 


区 ing Maven Projects, 


©, Install or deploy an artifact to a Maven repository 
$, Materialize Maven Projects from SCM 

© Run/Debug 

3 Package Explorer 

^ B storm-starter 

^ 19 src 
BaskDRPCTopology java. 

40 ExdamationTopology java 
ih ManualDRPC java. 
D PrintSampleStreamjava 
i ReachTopology java. 
1 RollingTopWords java 
11 Singleloinbxamole java 
ih TransactionalGlobalCount java. 





LIE 





图 2.7 


如 今 项 目 已 准备 好 建立 和 执行 。 下 面 将 详细 解释 拓扑 的 所 有 移动 组 件 ， 
看 输出 将 是 怎样 的 情况 ， 如 图 2.8 所 示 。 









Zookeeper connection y 
established 


Storm Supervisor process, 
connected to mokeeper 







21594 [Thread-11-count] INFO bad 
21595 [Thread-11-count] INFO ba 
21595 [Thread-32] INFO backtype. storm.daenon.tash 
21595 [Thread-13-count] INFO  backtype.storm.daemon.executor 
21595 [Thread-13-count] INFO  backtype.storm.daemon. 














图 2.8 
由 图 2.8 已 经 看 到 了 拓扑 执行 的 情况 ， 希 望 结合 


— 2 exomples 


itorm.daenon.supervisor ~ Starting Supervisor with conf ("dev.zcokeeper.path" " 


aa Ll ee sh CU amry vocncype. sturm ecm eAeuLU, ~ riucesaan 
21594 [Thread-32] INFO backtype.storm.daenon.task - Emitting: 
21594 [Thread-11-count] INFO backtype.storm.daemon.task - Emittin 













- UNEN 
[E 


4 |. apache-storm-0.9.5-src. 
4 |. apache-storm-095 
L bin 
A. conf 
|. dev-tools 





multilang 


sic 
target 
test 








"/tmp/dev-storm-zooke 
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一 些 重要 的 观察 项 目 及 前 后 关联 。 

请 注意 ， 尽 管 Storm 在 单 节 点 上 执行 ， 仍 可 看 到 与 日 志 记录 器 有 关 的 需要 创建 的 一 
些 内 
Zookeeper 连接 
主管 进程 启动 
工作 者 进程 创建 
实际 字 词 计数 后 的 元 组 发 送 

现在 进一步 了 解 字 词 计数 拓扑 的 执行 脉络 。 图 2.9 表达 了 流程 和 相关 代码 片段 的 剖析 。 
基本 上 字 词 计数 拓扑 是 一 个 由 RandomSentenceSpout、SplitSentenceBolt 和 WordCountBolt 
组 成 的 网 络 。 


COCOS 


Random Sentence 


Split Sentence Bolt Word Count Bolt 











图 2.9 


尽管 图 2.9 中 所 示 的 流程 和 动作 是 不 言 自明 的 ， 仍 会 用 一 些 文字 来 详细 说 明代 码 
片段 。 
Q  WordCountTopology: 在 这 里 实际 上 完成 了 应 用 程序 的 各 种 流 和 处 理 组 件 的 网 络 
或 连 线 。 


// we are creating the topology builder template class 
TopologyBuilder builder = new TopologyBuilder (); 

// we are setting the spout in here an instance of 

// RandomSentenceSpout 

builder.setSpout("spout", new RandomSentenceSpout(), 5); 
//Here the first bolt SplitSentence is being wired into 
//the builder template 
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builder.setBolt("split", new SplitSentence(), 

8) .shuffleGrouping ("spout"); 

//Here the second bolt WordCount is being wired into the 
//builder template 

builder.setBolt("count", new WordCount(), 12). 
fieldsGrouping("split", new Fields ("word") ); 


值得 注意 的 是 ,如 何 使 用 前 述 示例 里 的 各 种 分 组 ,如 fieldsGrouping 和 shuffleGrouping 
来 连 线 和 订阅 流 。 另 一 方面 是 组 件 连接 到 topology 时 针对 每 个 组 件 定义 的 并 行 度 示意 。 


builder.setBolt ("count", new WordCount(), 12). 
fieldsGrouping("split", new Fields ("word") ); 


例如 ， 在 前 面 的 代码 段 中 ， 新 的 WordCount 类 Bolt 被 定义 为 12 的 并 行 度 示意 。 这 
意味 着 将 产生 12 个 执行 器 任务 来 处 理 该 Bolt 的 并 行 处 理 。 
O RandomSentenceSpout: 这 是 拓扑 的 Spout 或 馈线 组 件 。 它 从 代码 本 身 硬 编码 的 
语句 组 中 取得 一 个 随机 语句 ， 并 将 其 发 送 到 拓扑 上 以 使 用 collector.emit() 方 法 进 
行 处 理 。 这 里 是 实现 同类 功能 的 一 段 代 码 摘录 : 
public void nextTuple() { 
Utils.sleep (100) ; 


String[] sentences = new String[]{ "the cow jumped over 
the moon", "an apple a day keeps the doctor away", 

















"four score and seven years ago", "snow white and the 
seven dwarfs", "i am at two with nature" }; 

String sentence - sentences[ rand.nextInt 
(sentences.length)]; 


collector.emit (new Values (sentence)); 


public void declareOutputFields (OutputFieldsDeclarer 
declarer) { 
declarer.declare (new Fields ("word") ); 

} 


nextTuple() 方 法 对 每 个 读 取 的 事件 或 元 组 执行 Spout 和 推 入 拓扑 。 笔 者 还 附加 了 
declareOutputFields() 方 法 的 代码 片段 ， 从 该 Spout 出 来 的 新 流 被 绑 定 到 这 里 。 


现在 已 明确 在 安装 好 的 Storm 中 执行 字 词 计数 的 情况 ， 如 图 2.10 所 示 。 接 下 来 可 深 
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入 了 解 其 内 部 情况 ， 包 括 理解 Storm 内 部 结构 及 其 体系 结构 的 详细 性 质 、 剖 析 一 些 关 键 
功能 来 探索 它们 的 应 用 。 








RandomSen 


tenceSpout WordCount Bolt 


SplitSentence Bolt 





ZAM 


图 2.10 


2.6 Storm 的 内 部 特性 


] 开 始 谈论 Storm 时 ， 该 框架 如 下 的 关键 方面 显得 格外 突出 : 


Q Storm 的 并 行 性 
Q Storm 的 内 部 消息 处 理 
下 面 就 来 探讨 每 个 属性 ， 并 了 解 Storm 如 何 发 挥 相 应 的 功能 。 


2.6.1 Storm 的 并 行 性 


如 果 要 深入 了 解 Storm 集群 中 功能 强劲 的 进程 ， 以 下 一 些 关 键 组 件 值得 积极 探索 。 

O 工作 者 进程 (Worker process) : 这 些 是 在 主管 节点 上 执行 的 进程 ， 每 一 进程 负 
责 处 理 拓扑 的 一 个 子 集 。 每 个 工作 者 进程 在 其 自己 的 JVM 中 执行 。 可 以 在 拓扑 
构建 器 模板 中 指定 分 配给 拓扑 的 工作 者 数量 ， 并 且 在 拓扑 提交 时 适用 。 

Q 执行 者 (Executor) : 这 些 是 在 工作 者 进程 中 生成 的 用 于 Bolt BK Spout 执行 的 线 
程 。 每 个 执行 者 可 以 运行 多 个 任务 ， 但 是 这 些 任 务 只 能 在 作为 单个 线程 的 执行 
器 上 顺序 执行 。 在 拓扑 生成 器 模板 中 Bolt 和 Spout 连 线 时 指定 执行 者 数目 ， 默 
认 值 为 1。 


a 4 


fH 


EJ (Task) : 这 些 是 进行 实际 处 理 的 基本 操作 中 心 。 默 认 情 况 下 ，Storm 为 每 


个 执行 者 启动 一 个 任务 。 还 可 以 在 拓扑 构建 器 模板 中 设置 Bolt 和 Spout 时 指定 





E 务 数目 。 





可 参考 下 面 的 代码 : 


builder.setBolt("split", new SplitSentence(), 8).setNumTasks (16). 














shuffleGrouping("spout"); //1 


第 2 章 熟悉 Stomm 。33。 


conf.setNumWorkers (3); //2 

上 述 代码 段 反 映 以 下 内 容 : 

A SplitSentence 类 Bolt 已 经 分 配 了 8 个 执行 者 。 

Q  SplitSentence 类 Bolt 在 执行 期 间 将 启动 16 个 任务 ， 这 意味 着 每 个 执行 者 有 2 个 
任务 。 对 于 每 个 执行 者 ， 这 些 任务 将 按 顺 序 执行 。 

O ”使 用 3 个 工作 者 进程 来 启动 拓扑 的 配置 。 

2.11 体现 了 这 3 个 组 件 间 的 相互 关系 。 





图 2.11 


在 主管 节点 内 生成 工作 者 进程 。 通 用 简略 规则 是 在 节点 上 每 个 处 理 器 有 一 个 工作 者 
进程 。 在 每 个 工作 者 进程 中 再 创建 多 个 执行 者 进程 一 一 每 个 进程 在 自己 的 JVM 中 执行 并 
编排 其 任务 。 

接 下 来 可 以 了 解 Storm 并 行 性 概念 。 在 这 里 ， 将 尝试 使 用 样本 拓扑 示例 来 进行 同样 
的 工作 ， 然 后 确定 同样 工作 提交 时 会 发 生 的 情况 以 及 性 能 提升 的 达成 。 


Config topologyConf = new Config(); 
topologyConf.setNumWorkers (2); 





topologyBuilder.setSpout ("my-spout", new MySpout(), 2); 
topologyBuilder.setBolt ("first-bolt", new FirstBolt(),2) 
.setNumTasks (4) 


. shuffleGrouping ("my-spout"); 
topologyBuilder.setBolt("second-bolt", new YellowSecondBolt(), 6) 
. shuffleGrouping ("first-bolt") ; 
这 里 有 一 个 简单 直接 的 拓扑 ， 它 分 配 了 两 个 工作 者 ， 并 包含 有 一 个 并 行 度 示意 为 2 
的 Spout 和 两 个 Bolt: 其 中 第 一 个 Bolt 的 并 行 度 示意 为 2， 任务 数量 为 4， 而 第 二 个 Bolt 
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的 并 行 度 示意 为 6。 
请 注意 ， 并 行 度 示 意 指 的 是 执行 者 的 数量 ,默认 情况 下 ，Storm 会 为 每 个 执行 者 产生 
一 个 任务 ， 所 以 可 根据 前 面 的 拓扑 模板 配置 明了 这 里 的 一 些 计 算 指标 : 
口 总 体 组 合并 行 度 ( 执 行者 数目 ) =2 (Spout 并 行 度 ) +2 (第 一 Bolt 并 行 度 ) +6 
(第 二 Bolt 并 行 度 ) = 10 
分 配 的 工作 者 数量 = 2 
每 个 工作 者 上 生成 的 执行 者 数量 = 10/2 = 5 
Spout 的 任务 数量 = 1 (默认 ) 
第 一 个 Bolt 的 任务 数量 = 4 
第 二 个 Bolt 的 任务 数量 = 6 
情况 如 图 2.12 所 示 。 





DODDLD 


Worker process 1 Worker process 2 





图 2.12 
图 2.12 呈现 了 拓扑 组 件 在 两 个 工作 者 上 的 分 布 情 况 。 


2.6.2 Storm 的 内 部 消息 处 理 


在 2.6.1 节 中 讨论 了 Storm 的 并 行 性 ， 相 信 读 者 已 了 解 到 Storm 的 拓扑 组 件 在 不 同 节 
点 、 工 作者 进程 和 线程 间 的 分 布 情况 。 

现在 ， 需 要 理解 多 进程 间 的 通信 ， 这 种 通信 能 协调 并 行 分 布 式 处 理 单元 的 工作 。 虽 
然 这 种 通信 是 所 有 处 理 的 关键 要 素 ， 但 必须 足够 高 效 和 最 低 限 量 加 载 ， 以 避免 成 为 降低 
网 络 数据 传输 吞吐 量 的 负担 。 

虽然 在 后 面 的 章节 中 会 讨论 到 有 关 细 节 ， 仍 有 必要 先 了 解 在 Storm 集群 中 拓扑 执行 
过 程 中 的 各 种 通信 方式 所 发 挥 的 作用 。 
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O 工作 者 间 通 信 : 这 里 指 的 是 两 个 工作 者 进程 之 间 发 生 的 信息 交换 。 此 类 通信 有 
两 种 执行 应 用 情况 。 
> ”在 同一 节点 上 的 工作 者 执行 : 这 种 情况 下 不 涉及 网 络 跳 转 ， 因 为 信息 交换 
发 生 在 同一 主管 节点 上 的 两 个 工作 者 节点 之 间 。 该 应 用 情况 下 ， 在 早期 
Storm 版 本 中 使 用 ZeroMQ 来 执行 JVM 间 通 信 , 在 Storm 0.9 及 更 高 版 本 中 
使 用 Netty。 
> 跨 节 点 的 工作 者 执行 这 里 指 的 是 在 不 同 主管 节点 上 执行 的 两 个 工作 者 节 
点 之 间 发 生 的 信息 交换 。 这 种 情况 涉及 网 络 跳 转 。 此 应 用 情况 在 早期 Storm 
版 本 中 使 用 ZeroMQ 执行 通信 ， 在 Storm 0.9 及 更 高 版 本 中 则 使 用 Netty。 
O 工作 者 内 通信 : 这 种 通信 的 特点 是 信息 交换 发 生 在 工作 者 内 部 ， 是 在 同一 工作 
者 线程 上 生成 的 执行 者 之 间 的 消息 传递 通信 。 这 种 通信 在 单个 主管 节点 上 单一 
JVM 内 的 不 同 工 作 线程 之 间 发 生 。Storm 使 用 LMAX Disruptor (一 个 超 高 效 、 
轻 量 级 的 消息 传递 框架 ， 用 于 线程 间 通 信 ) 来 执行 这 种 情况 下 的 通信 。 
这 里 要 注意 如 下 几 方 面 : 
口 所 有 节点 间 通 信和 都 由 ZeroMQ、Netty 或 Kyro 来 完成 。 这 里 使 用 序列 化 。 
口 所 有 节点 内 通信 都 使 用 LMAX Disruptor 完成 。 这 里 不 使 用 序列 化 。 
Q 有 效 使 用 消息 交换 框架 和 序列 化 可 以 提升 Storm 的 实现 效率 和 性 能 。 
图 2.13 显示 了 工作 者 内 部 的 通信 和 消息 执行 情况 。 














Worker Process 














图 2.13 


Storm 的 每 个 主管 节点 都 分 配 有 TCP 端口 。 这 是 在 storm.yaml 配置 文件 里 定义 的 。 
2.13 所 示 的 工作 者 输入 线程 会 持续 监听 分 配 的 端口 。 当 它 收 到 一 个 消息 时 ， 该 输入 线 
程 会 读 取 消息 并 将 其 放 入 缓冲 区 (一 个 基于 ArrayList 的 队列 )。 这 个 输入 接收 线程 被 命 
名 为 receiver.buffer， 其 负责 读 取 传 入 消息 并 将 其 分 批 送 到 topology.receiver.buffer 中 。 








“36 实时 大 数据 分 析 一 一 基于 Storm. Spark 技术 的 实时 应 用 


在 同一 个 工作 者 进程 中 可 以 生成 多 个 执行 者 。 再 参考 图 2.13， 每 个 执行 者 进程 也 拥 
有 自己 的 输入 队列 , 并 从 receiver. buffer 接收 反馈 信息 。 每 个 执行 者 都 有 自己 的 输入 队列 。 
AERE SR S; TE Bolt 的 execute0 方 法 中 ， 或 写 在 Spout 的 nextTuple0 方 法 中 ， 可 以 对 在 执 
行者 队列 中 等 待 的 消息 执行 相应 处 理 逻 辑 。 一 旦 处 理 完成 就 需要 把 消息 发 送出 去 ， 这 时 
由 执行 者 的 输出 线程 或 发 送 者 线程 将 消息 分 派 给 工作 者 的 输出 线程 。 

属于 工作 者 的 输出 线程 接收 消息 并 将 其 放 在 ArrayList 输出 队列 中 。 一 旦 达到 阔 值 ， 
消息 就 在 出 站 TCP 端口 上 从 节点 发 送出 去 。 


27 本 章 小 结 


本 章 涉 及 不 少 Storm 及 其 历史 沿革 等 方面 内 容 , 介绍 了 Storm 的 组 件 以 及 Storm 某 些 
关键 概念 的 内 部 实现 。 其 中 浏览 分 析 了 实际 的 代码 ， 现 在 希望 读者 可 以 搭建 Storm (本 地 
版 和 集群 版 ) 并 运行 Sormm， 编 程 部 分 基本 范例 。 

在 下 一 章 中 将 针对 Storm 与 各 种 输入 数据 源 的 结合 使 用 进行 探索 。 将 讨论 Storm 的 
可 靠 性 ， 以 及 如 何 将 来 自 Storm 中 Bolt 的 数据 持久 化 保存 到 稳定 存储 介质 中 。 
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本 章 将 主要 聚焦 使 用 Storm 读 取 和 处 理 数据 。 这 里 涉及 的 关键 方面 包括 Storm 从 各 
种 数据 源 消 耗 数据 、 处 理 和 转换 数据 以 及 将 其 保存 到 数据 存储 空间 的 能 力 。 还 将 帮助 读 
者 了 解 过 滤器 、 联 结 和 聚合 这 些 相关 概念 并 提供 示例 。 
在 本 章 会 介绍 以 下 主题 : 
Storm 输入 数据 源 
认识 Kafka 
数据 处 理 的 可 靠 性 
Storm 的 简单 模式 
Storm 的 持久 性 





ooooo 


3.1 Storm 输入 数据 源 


Storm 同 各 种 输入 数据 源 都 能 很 好 地 配合 工作 。 下 面 这 几 个 数据 库 可 以 考虑 一 起 
使 用 : 

ū Kafka 

D RabbitMQ 

DD Kinesis 

Storm 实际 上 是 数据 的 消费 者 和 处 理 者 ， 必 须 与 数据 源 耦 合 才能 发 挥 作用 。 大 多 数 情 
况 下 ， 数 据 源 是 产生 流 数据 的 连接 设备 ， 比 如 下 面 一 些 数据 : 

D ”传感器 数据 

O 交通 信号 数据 

口 来 自 证 券 交 易 所 的 数据 

O ”生产线 数 据 

这 个 列表 几乎 是 无 限 的， 列举 内 容 都 可 以 作为 基于 Storm 解决 方案 的 数据 用 例 。 在 
设计 有 凝聚 力 且 低 耦 合 系统 的 基础 上 ， 保 持 数据 源 和 计算 的 松 耦 合 关 系 非 常 重要 。 强 烈 
建议 通过 队列 或 代理 服务 的 方式 将 流 数 据 源 同 Storm 的 计算 单元 集成 起 来 ,图 3.1 显示 了 
任意 基于 Storm 流 应 用 程序 的 基本 数据 流程 ， 包 括 从 数据 源 开始 整理 直到 采集 数据 进入 
Storm 中 。 
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图 3.1 


Storm 消耗 、 解 析 、 处 理 数据 ， 并 将 数据 转 储 到 数据 库 中 。 在 接 下 来 的 部 分 ， 将 更 深 
入 了 解 Storm 计算 单元 和 数据 源 之 间 解 耦 集成 方面 的 内 容 。 


3.2 认识 Kafka 


Kafka 是 一 个 基于 日 志 提交 原理 运行 的 分 布 式 队列 系统 。 它 的 执行 基于 传统 的 发 布 者 - 
订阅 者 (pub-sub) 模型 ， 其 内 置 的 高 效 性 和 持久 性 是 众所周知 的 。 当 从 根本 上 将 数据 结构 
持久 标记 时 ， 即 使 在 出 错 的 情况 下 ， 这 些 消息 或 数据 也 能 得 到 保留 或 恢复 。 
继续 深入 之 前 ， 先 熟悉 一 些 术语 以 有 助 于 更 好 地 理解 Kafka: 
Q Kafka 基于 典型 的 发 布 者 -订阅 者 模型 ， 由 Kafka 生产 者 进程 来 负责 生成 消息 ， 
Kafka 消费 者 进程 来 负责 消耗 消息 。 

口 一 个 或 多 个 消息 组 成 的 消息 源 / 流 被 分 组 到 Kafka 主题 中 ， 这 些 主题 被 生产 者 进 
程 发 布 时 会 被 消费 者 进程 订阅 。 

Q Katka 是 分 布 式 的 ,因此 能 确保 它 在 生产 场景 中 以 集群 设置 方式 来 执行 。 它 具有 
一 个 或 多 个 代理 服务 器 ， 这 些 代理 服务 器 串 接 在 一 起 形成 Kafka 集群 。 

3.2 描述 了 典型 的 Kafka 集群 及 其 组 件 : 
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图 3.2 


图 示 很 容易 理解 ， 这 里 仍 进行 一 些 简单 的 解释 说 明 。Kafka 集群 通常 包括 一 个 或 多 个 
Katka 服务 器 ， 这 些 服务 器 通过 典型 的 TCP 协议 彼此 通信 。 生产 者 和 消费 者 进程 一 般 通 
过 客户 端 与 服务 器 通信 ,客户 端 可 以 用 Java. Python 或 其 他 语言 实现 (Kafka 客户 端 可 以 
在 https://cwiki.apache.org/confluence /display/KAFKA/Clients 找到 )。 


3.2.1 关于 Kafka 的 更 多 知识 


可 以 将 Kafka 主题 看 作 命名 的 信箱 ， 其 中 的 消息 由 Kafka 生产 者 提供 。 一 个 Kafka 
集群 可 以 有 多 个 主题 ， 每 一 主题 能 进一步 分 割 并 按时 间 顺 序 排列 。 可 以 将 主题 看 作 实 际 
保存 物理 文件 的 逻辑 分 区 集合 。 

如 图 3.3 Bras, 一 个 Kafka 代理 可 以 保存 多 个 分 区 ,并且 每 个 分 区 以 严格 的 顺序 保存 
多 个 消息 。 订 购 〈 按 时 间 顺 序 ， 其 中 第 0 个 为 最 早 的 消息 ) 是 由 Kafka 消息 代理 系统 提 
供 的 最 大 优点 之 一 。 一 个 或 多 个 生产 者 可 以 写 入 分 区 ， 消 费 者 订阅 以 检索 这 些 分 区 的 消 
息 。 所 有 消息 间 的 区 分 来 自 唯一 的 偏 移 ID 〈 与 分 区 中 每 个 消息 相关 联 的 唯一 标识 符 ， 并 
且 仅 在 本 分 区 内 保持 唯一 性 )。 

每 个 发 布 的 消息 保留 一 段 特定 的 时 间 ， 由 已 配置 的 生存 时 间 (TTL) 表示 。 此 行为 不 
考虑 消息 是 由 消费 者 消耗 还 是 由 分 区 保留 。Kafka 中 下 一 个 需要 了 解 的 重要 属性 是 主题 。 

如 果 用 最 简单 的 语句 来 描述 , Kafka 持续 不 断 地 将 消息 写 入 提交 日 志 。 每 个 分 区 都 有 
自己 不 可 变 的 提交 日 志 。 如 前 所 述 ， 每 个 消 Eo 

谈 到 Kafka 消费 者 , 需要 了 解 非常 重要 的 一 点 就 是 ， Kafka 之 所 以 高 效 的 原因 是 消费 
者 上 下 文 设置 和 维护 的 重 载 要 最 小 化 。 实 际 上 ee 对 每 个 消费 者 ， 它 只 
需要 保持 偏 移 量 即 可 。 消 费 者 元 数据 在 服务 器 上 维护 ， 消 费 者 的 工作 只 是 记 住 偏 移 量 。 
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读者 需要 理解 前 面 声明 里 非常 重要 的 含义 . Kafka 以 提交 日 志 的 形式 存储 分 区 中 的 所 有 消 


E. 日 志 基本 上 按时 间 顺 序 排序 ， 同 时 如 前 所 述 ，Kafka 消费 者 保留 维护 、 管 理 

















E 和 提前 偏 


移 量 的 权利 。 因 此 ，Kafka 消费 者 们 可 以 按照 它们 想 要 的 方式 读 取 和 处 理 消息 。 例 如 ， 可 
以 重 置 偏 移 量 以 从 队列 开始 处 读 取 ， 或 者 可 以 将 偏 移 量 移 到 队列 末尾 ， 从 后 面 消耗 。 
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图 3.3 


增加 Katka 解决 方案 可 扩展 性 的 另 一 个 方面 是 ， 一 个 分 区 托管 在 一 个 机 器 上 ， 一 个 





主题 可 拥有 任意 数量 的 分 区 ， 从 而 在 理论 上 可 以 线性 伸缩 方式 来 存储 大 量 扩展 数据 。 分 


布 式 分 区 的 这 种 机 制 ， 以 及 跨 主题 分 区 的 数据 复制 ， 呼 应 了 高 可 用 性 和 负载 平衡 这 两 个 
重要 的 大 数据 概念 。 
分 区 的 处 理 以 非常 有 弹性 和 故障 安全 的 方式 完成 。 每 一 个 分 区 都 有 其 领导 者 和 追随 


者 , 这 里 采用 


先 写 入 分 











区 领导 者 。 在 后 台 有 复制 到 跟随 器 的 写 入 操作 ， 用 以 保持 复制 因子 。 


了 一 些 非常 接近 和 类 似 Zookeeper 仲裁 操作 的 方式 。 当 消息 到 达 主 题 时 ， 首 


在 领导 者 


故障 的 情况 下 ， 会 再 次 选择 让 一 个 追随 者 成 为 新 的 领导 者 。 每 个 Kafka 服务 器 节点 均 可 
作为 跨 集群 分 布 的 一 个 或 多 个 分 区 的 领导 者 。 

如 前 所 述 , Kafka 中 消费 者 消耗 消息 和 生产 者 执行 处 理 的 角色 同样 重要 。 起 初 最 重要 
的 是 ， 生 产 者 发 布 消息 到 主题 上 ， 但 不 像 看 上 去 那样 直接 简单 。 它 们 必须 决定 哪个 消息 
应 该 写 入 哪个 主题 的 分 区 里 。 这 个 决定 由 一 个 配置 算法 来 实现 ， 可 以 使 用 轮 询 、 基 于 键 
值 甚至 某 些 自 定义 算法 。 

现在 消息 已 经 发 布 ， 我 们 需要 了 解 Kafka 消费 者 操作 的 实质 及 其 精练 的 动态 性 能 。 
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传统 上 如 果 要 分 析 消 息 服务 ， 理 论 方面 只 有 两 个 模型 在 总 体 层面 上 操作 。 其 他 模型 或 多 
或 少 都 是 围绕 着 这 两 种 模型 的 实现 演化 构建 的 抽象 。 这 两 个 基本 模型 介绍 如 下 。 

O MJ: 在 此 模型 中 ， 消 息 被 写 入 单个 队列 ， 消 费 者 可 以 从 队列 中 读 取消 息 。 

口 ”发布 者 -订阅 者 : 在 此 模型 中 ， 消 息 写 入 主题 ， 所 有 订阅 的 消费 者 都 可 以 从 同一 

主题 中 读 取 。 

前 面 的 描述 在 基本 层面 是 有 效 的 。 队 列 的 各 种 实现 提供 此 类 行为 ， 该 行为 取决 于 队 
列 中 基于 推送 或 基于 拉 取 服务 的 实现 方面 。 

Kafka 的 实现 者 已 经 聪明 地 将 灵活 性 和 功能 性 融 为 一 体 。 在 Kafka 术语 中 这 被 称 为 消 
费 者 群体 的 概括 。 

这 种 机 制 有 效 地 实现 了 先前 描述 的 队列 和 发 布 者 -订阅 者 模型 ， 如 图 3.4 所 示 ， 并 且 
在 消费 者 端 提供 了 负载 平衡 的 优点 。 在 客户 端 ， 即 消费 者 端 可 以 获得 对 消耗 速率 及 可 扩 
展 性 的 有 效 控制 。 每 个 消费 者 都 是 消费 者 组 的 一 部 分 ， 发 布 到 分 区 的 任何 消息 都 由 每 个 
消费 者 组 中 的 一 个 (注意 只 有 一 个 ) 消费 者 使 用 。 

















Queue Model = 
(Pan ) [ 7] C 
CIT 
Pub-Sub Model = 
Le 
C 

图 3.4 


通过 分 析 图 3.5， 可 清楚 地 看 到 一 个 图 形 化 描述 的 消费 群体 及 其 行为 。 这 里 有 两 个 
Kafka 代理 Broker: 代理 1 和 代理 2。 它 们 有 两 个 主题 : 主题 A 和 主题 B。 每 个 主题 再 分 
为 两 个 分 区 (Partition): 分 区 0 和 分 区 1。 仔 细 查 看 图 3.5， 会 注意 到 主题 A 中 分 区 0 的 
消息 被 同时 写 入 消费 者 组 A 中 的 一 个 消费 者 和 消费 者 组 B 中 的 一 个 消费 者 。 

类 似 地 ， 对 于 所 有 其 他 分 区 ， 在 单个 消费 者 群 中 可 以 实现 包含 群 里 所 有 消费 者 的 排队 
模型 ， 从 而 达成 一 个 消息 仅 传递 给 一 个 消费 者 过 程 。 这 样 就 直接 实现 了 负载 均衡 的 效果 。 

如 果 碰 巧 拥 有 一 个 配置 ， 其 中 每 个 消费 者 组 只 有 一 个 消费 者 进程 ， 那 么 将 显示 与 发 
布 者 -订阅 者 模型 相同 的 行为 ， 所 有 消息 都 将 发 布 给 所 有 消费 者 。 
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Kafka 中 有 以 下 约定 : 

O 以 每 个 主题 分 区 维护 消息 排序 。 

口 ”消息 按照 它们 写 入 提交 日 志 的 顺序 呈现 给 消费 者 。 

O ”以 复制 因子 为 N 来 说 ,集群 可 以 总 体 承受 高 达 N-1 次 故障 。 

要 在 系统 上 搭建 Kafka， 请 从 http://kafka.apache.org/downloads.html 下 载 资源 包 ， 然 
后 运行 以 下 命令 : 
> tar -xzf kafka_2.11-0.9.0.0.tgz 
> cd kafka_2.11-0.9.0.0 


Kafka 需要 搭建 ZooKeeper。 可 以 使 用 现 有 的 ZooKeeper 环境 配置 并 将 其 与 Kafka fl 
成 , 或 者 可 以 使 用 快速 启动 与 前 面 Kafka 搭建 中 类 似 的 ZooKeeper Kafka 脚本 。 可 以 运行 
以 下 命令 : 
> bin/zookeeper-server-start.sh config/zookeeper.properties 


[2015-07-22 15:01:37,495] INFO Reading configuration from:config/zookeeper. 
properties (org.apache.zookeeper.server.quorum.QuorumPeerConfig) 


—H ZooKeeper 启动 就 绪 并 且 运 行 ， 就 可 以 启动 运行 Kafka 服务 器 : 


> bin/kafka-server-start.sh config/server.properties 
[2015-07-22 15:01:47, 028] INFO Verifying properties (kafka.utils.Verifiable 
Properties) 
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[2015-07-22 15:01:47,051] INFO Property socket.send.buffer.bytes is overridden 
to 1048576 (kafka.utils.VerifiableProperties) 


fii Kafka 启动 运行 后 ， 下 一 步 是 创建 一 个 Kafka 主题 : 
> bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication- factor 
1 --partitions 1 --topic test 

创建 主题 后 ， 可 用 以 下 命令 验证 主题 : 
> bin/kafka-topics.sh --list --zookeeper localhost:2181 
Test 

在 这 里 ， 创 建 了 一 个 名 为 Test 的 主题 ， 其 中 复制 因子 保持 为 1 并 且 主 题 具 有 单个 
分 区 。 

现在 设置 发 布 消 息 ， 将 在 命令 行 运行 Kafka 生产 者 : 


> bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test 





























This is message 1 
This is message 2 


现在 可 以 在 命令 行 让 消费 者 消耗 这 些 消息 。 命 令 行 添加 一 个 Kafka 消费 者 ， 将 消息 
转 储 到 标准 输出 : 
> bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test 
--from-beginning 
This is message 1 
This is message 2 


Kafka 搭建 好 后 ， 重 新 加 到 Storm, FR Storm 和 Kafka 的 集成 工作 。 
3.22 Storm 的 其 他 输入 数据 源 


在 前 面 的 例子 中 ,已 经 看 到 了 数据 与 Storm 集成 ,其 中 之 一 是 3.2.1 节 讨 论 过 的 Kafka. 
在 Storm 范例 中 的 字 词 计数 拓扑 〈 在 第 2 章 中 详细 介绍 过 ) 没有 使 用 任何 数据 源 进行 输 
入 。 作 为 替代 方案 ， 硬 编码 一 些 句子 到 Spout 程序 里 并 作为 待 处 理 数据 被 发 送 到 拓扑 。 这 
可 能 适合 用 例 测 试 和 样 例 示 范 ， 但 并 不 符合 真实 世界 的 实现 预期 。 在 几乎 所 有 真实 世界 
的 实现 中 ，Storm 必须 将 实况 事件 的 数据 流 馈送 到 拓扑 中 。 可 以 有 各 种 各 样 能 与 Storm 集 
成 的 输入 数据 源 。 仔 细 观 察 一 下 代码 段 ， 看 看 可 用 什么 方式 来 配合 Storm 提供 数据 。 
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1. 以 文件 作为 输入 数据 源 

可 以 使 用 Storm 的 Spout 来 有 效 地 从 文件 中 读 取 数据 。 尽 管 这 不 是 流 应 用 程序 的 真正 
用 例 , 仍 可 以 很 好 地 从 文件 中 将 数据 读 入 Storm, 所 需要 做 的 是 为 此 写 一 个 自 定义 的 Spout. 

以 下 是 实现 有 关 功 能 的 代码 段 ， 后 面 会 有 所 解释 。 


[** 























* This spout reads data from a CSV file. 
Sal 
public class myLineSpout extends BaseRichSpout { 
private static final Logger LOG = LoggerFactory.getLogger (myLineSpout. 
class); 
private String fileName; 
private SpoutOutputCollector collector; 
private BufferedReader reader; 
private AtomicLong linesRead; 


/** 
* Prepare the spout. This method is called once when the topology is 
submitted 
* @param conf 
* @param context 
* @param collector 
el 
GOverride 
public void open (Map conf, TopologyContext context, SpoutOutputCollector 
collector) ( 
linesRead = new AtomicLong(0); 
collector - collector; 
try ( 
fileName- (String) conf.get("myLineSpout.file"); 
reader = new BufferedReader (new FileReader (fileName)); 
// read and ignore the header if one exists 
) catch (Exception e) ( 


throw new RuntimeException (e); 
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/** 
* Storm will call this method repeatedly to pull tuples from the spout 
ES 
GOverride 
public void nextTuple() ( 
try { 
String line = reader.readLine(); 
if (line !- null) ( 
long id = linesRead.incrementAndGet () ; 
collector.emit(new Values(line), id); 
) else ( 
System.out.println("Finished reading file, " + linesRead.get() + 
" lines read"); 
Thread.sleep (10000); 
) 
) catch (Exception e) ( 
e.printStackTrace(); 
) 
} 


前 面 的 代码 实例 包含 了 myLineSpout 类 中 两 个 非常 重要 的 代码 段 , 它 们 从 指定 的 CSV 
文件 中 逐 行 读 取 数 据 : 第 一 个 代码 段 是 在 初始 化 Spout 时 执行 的 open() 方 法 ， 在 open) 
方法 中 ， 读 取 文 件 名 和 设置 文件 读 取 器 ， 第 二 个 代码 段 是 nextTuple0 方 法 ， 该 方法 每 次 
执行 时 从 文件 读 取 新 数据 。 在 这 里 ， 实 际 上 是 从 文件 中 读 取 行 数据 并 将 它们 发 送 到 拓扑 。 
这 种 方式 简单 直接 。 建 议 尝试 调整 已 建立 的 字 词 计数 Storm 实例 ， 将 其 中 的 代码 内 置 数 
据 改 为 从 文件 读 取 并 执行 拓扑 。 

2. 以 套 接 字 作为 输入 数据 源 

与 文件 类 似 , 可 以 使 用 Storm 的 Spout 来 有 效 地 从 套 接 字 读 取 数据 。 这 里 是 自 定义 套 
接 字 Spout 的 代码 片段 。 同 样 地 ， 以 open0 和 nextTuple0 作 为 数据 读 取 的 两 个 重要 方法 。 
有 关 代 码 如 下 : 


public class mySocketSpout extends BaseRichSpout { 


public void open (Map conf, TopologyContext context, 
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SpoutOutputCollector 
collector) { 
_collector=collector; 
serverSocket=new ServerSocket( port); 
} 
public void nextTuple() { 
clientSocket- serverSocket.accept (); 
InputStream incomingIS- clientSocket.getInputStream() ; 
byte[] b=new byte[8196]; 
int len=b.incomingIS. read (b) ; 
collector.emit (new Values (b)); 


在 open() 方 法 中 , 实例 化 并 创建 服务 器 套 接 字 。 在 nextTuple() 方 法 中 , 获取 传 入 的 字 
节 ， 然 后 将 它们 发 送 到 拓扑 。 


3.2.8 Kafka 作为 输入 数据 源 


因为 Storm 有 一 个 Kafka 专用 的 Spout， 所 以 将 其 作为 输入 数据 源 很 直接 而 且 易 于 上 
手 。 可 通过 以 下 代码 段 来 理解 在 字 词 计数 实例 中 的 功能 实现 。 
public StormTopology buildTopology(...) { 
SpoutConfig kafkaConfig = new SpoutConfig(abc, TOPIC NAME, 
1192 1682213285» torm se 
kafkaConfig.scheme = new SchemeAsMultiScheme (new StringScheme ()); 
TopologyBuilder builder = new TopologyBuilder(); 
builder.setSpout(WORD COUNTER SPOUT ID, new KafkaSpout (kafkaConfig), 1); 


return builder.createTopology(); 
} 


在 上 面 的 代码 段 中 ， 创 建 了 一 个 拓扑 ， 其 中 包括 : 

Q 实现 Kafka 的 配置 ， 其 中 包括 指定 主题 名 称 、Kafka 代理 的 主机 ID 以 及 Spout 
标识 符 。 

OQ 定义 了 样式 的 细节 信息 。 

口 在 拓扑 生成 器 中 设置 Spout 以 及 其 他 Bolt。 

口 注意 将 所 有 拓扑 组 成 连接 到 一 起 的 实际 代码 段 。 








第 3 章 用 Storm 处 理 数 据 aye 


再 看 以 下 代码 : 


public static void main(String[] args) throws Exception { 
KafkaStormTopoLogy kafkaStormTopoLogy = new KafkaStormTopoLogy (kafkaZk) ; 


StormTopology stormTopology = kafkaStormTopoLogy.buildTopology (wn, wc, pb); 
String dockerIp = args[1]; 
List«String» zList = new ArrayList<String>(); 
zList.add (ZKNODEl); 
// configure how often a tick tuple will be sent to our bolt 
config.put(Config.TOPOLOGY TICK TUPLE FREQ SECS, 30); 
config.put(Config.NIMBUS HOST, dockerIp); 
config.put(Config.NIMBUS THRIFT PORT, 6627); 
config.put(Config.STORM ZOOKEEPER PORT, 2181); 
config.put(Config.STORM ZOOKEEPER SERVERS, zList); config.setNumWorkers (1); 
try ( 
System.out.println("Submitting Topology..."); 
StormSubmitter.submitTopology (TOPOLOGY NAME, config, 
stormTopology); 
System.out.println("Topology submitted successfully !! "); 


) 
前 面 的 代码 段 属于 常规 拓扑 提交 ， 不 需要 再 深入 解释 。 唯 一 值得 注意 的 是 ， 计 数 元 
组 (tick tuple)， 当 想 要 拓扑 以 所 述 间隔 做 某 事 时 ， 它 会 是 一 个 非常 方便 的 工具 。 举 例 来 


说 ， 有 一 个 Bolt 从 缓存 加 载 数据 ， 想 要 Bolt 每 隔 30 秒 从 缓存 刷新 一 下 ， 就 可 以 在 拓扑 
中 生成 tick_tuple 事件 满足 此 种 需求 ， 该 工作 可 在 拓扑 配置 时 做 好 : 


config.put (Config.TOPOLOGY TICK TUPLE FREQ SECS, 30); 
在 Bolt 中 可 以 识别 出 这 个 特殊 事件 ， 达 到 匹配 情况 时 即 可 执行 必要 的 操作 : 


return tuple.getSourceComponent () .equals (Constants .SYSTEM COMPONENT ID) 
&& tuple.getSourceStreamId().equals(Constants.SYSTEM TICK STREAM ID); 
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Storm 的 独特 卖点 之 一 是 对 消息 处 理 的 保障 ,这 让 它 成 为 十 分 有 利 的 解决 方案 。 尽管 


“48 实时 大 数据 分 析 一 一 基于 Storm. Spark 技术 的 实时 应 用 


如 此 ， 程 序 员 仍 需 要 做 一 定 的 建 模 工 作 来 确定 是 否 采用 Storm 所 提供 的 可 靠 性 支持 。 
首先 非常 有 必要 了 解 元 组 发 送 到 拓扑 的 情况 以 及 拓扑 所 对 应 DAG (有 向 非 循 环 图 ) 
的 构造 方式 。 图 3.6 显示 了 这 种 场景 的 典型 案例 。 














图 3.6 


这 里 的 拓扑 功能 非常 清楚 : 每 个 发 送 的 元 组 必须 经 过 过 滤 、 计 算 再 写 入 HDFS 和 数 
据 库 。 现 在 ， 看 一 下 单个 元 组 发 送 到 拓扑 中 对 于 DAG 的 影响 。 

发 送 到 拓扑 中 的 每 个 单个 元 组 移动 情况 如 下 所 示 : 

口 Spout A -> Bolt A - > Bolt D -> 数据 库 

口 Spout A - > Bolt B - > Bolt D -> 数据 库 

ū Spout A -> Bolt C - > HDFS 
因此 , KA Spout A 的 一 个 元 组 经 过 第 一 步 复制 后 得 到 三 个 元 组 ， 再 分 别 将 其 移动 到 
Bolt A, Bolt B 和 Bolt C 的 三 个 元 组 中 。 在 下 一 步骤 里 ， 元 组 数量 没 变 ， 单 个 元 组 经 过 响 
应 计算 后 依然 输出 单个 元 组 (出 入 都 是 3 个 元 组 ， 总 共 3 +3 =6 个 元 组 )。 在 Bolt D 的 下 
一 步骤 中 ， 两 个 流 被 连接 ， 所 以 看 上 去 它 消费 元 组 后 只 发 送 了 一 个 ， 因 此 会 有 6 + 1=7 
个 元 组 。 
因此 ， 对 于 成 功 处 理 的 一 个 事件 ， 基 于 拓扑 、 并 行 性 和 分 组 的 情况 下 ，Storm 必须 在 
内 部 生成 、 传 播 和 管理 多 个 元 组 。 在 前 面 的 例子 中 ， 假 设 所 有 包含 其 中 的 执行 组 件 的 并 
行 性 为 1， 并 且 Bolt 和 Spout 都 已 分 组 绑 定 。 这 样 就 非常 简单 明了 地 说 明了 有 关 过 程 。 

另 一 个 值得 注意 的 问题 是 ， 为 了 确认 事件 已 成 功 处 理 ， 正 在 执行 该 元 组 DAG 中 的 
Storm 要 从 所 有 节点 接收 到 ack()。Storm 中 配置 了 Config TOPOLOGY MESSAGE - 
TIMEOUT SECS 时 间 参 数 〈 默 认 值 为 30 秒 )， 所 有 的 ack0 都 应 在 该 时 间 范 围 内 到 达 。 
WR ack0 在 30 PARARE, Stom 会 视 为 执行 失败 并 将 该 元 组 重新 发 送 到 拓扑 中 。 
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基于 拓扑 的 设计 方式 会 重 放 失败 消息 。 如 果 使 用 锚 定 方式 创建 可 靠 的 拓扑 ， 则 Storm 
会 重 放 所 有 失败 的 消息 。 在 不 可 靠 拓 扑 〈 如 名 称 所 示 ) 的 情况 下 ， 重 放 不 会 发 生 。 


3.3.1 锚 定 的 概念 和 可 靠 性 








至 此 , 相信 读者 已 经 很 好 地 理解 了 nextTuple() 方 法 在 Spout 中 的 功能 。 它 在 数据 处 获 
取 变 得 可 用 的 下 一 个 事件 , 并 将 其 发 送 到 拓扑 中 。 Spout 的 open() 方 法 保存 了 Spout 收集 
器 的 定义 ， 这 个 收集 器 从 Spout 实际 发 送 元 组 到 拓扑 中 。 每 个 由 Spout 发 送 到 拓扑 中 的 元 
组 /事件 都 以 消息 ID 标记 , 消息 ID 是 元 组 的 标识 符 。 每 当 Spout 将 消息 发 送 到 拓扑 中 时 ， 
将 使 用 messageId 对 其 进行 标记 ， 代 码 如 下 所 示 : 


_collector.emit (new Values(...),msgId); 


这 个 messageld 标签 实际 上 是 元 组 的 标识 符 。 在 Storm 通过 Bolt 分 支 来 播放 元 组 时 ， 
会 使 用 此 messageID 来 跟踪 和 标记 元 组 。 

如 果 事 件 通过 DAG 成 功 播放 ， 它 就 得 到 确认 。 请 注意 ， 元 组 的 确认 是 在 Spout 层次 
由 发 送 元 组 的 Spout 来 完成 的 。 如 果 元 组 超时 ， 那 么 始 发 Spout 会 对 元 组 执行 fail0) 方 法 。 

现在 ， 需 要 了 解 一 个 关于 重 放 非常 重要 的 方面 。 需 要 考虑 的 问题 是 ,“Storm 如 何 重 
放 已 经 发 送 的 元 组 ?” ARE, Spout 从 队列 中 读 取 元 组 ， 但 元 组 仍 保留 在 队列 中 直到 
它 成 功 地 被 播放 ， 然 后 一 旦 接收 到 ack0，Storm 就 将 到 队列 确认 该 元 组 ， 从 而 删除 它 ; 
而 在 failO 的 情况 下 ， 消 息 被 排队 后 重 回 队列 以 供 消耗 和 重 放 。 

如 图 3.7 所 示 , 失败 的 元 组 被 传送 回 到 Spout， 并 且 被 排 回 队列 中 。 当 消息 通过 Spout 
从 队列 中 读 取 时 ， 它 们 被 标记 为 未 确认 状态 。 在 此 期 间 ， 它 们 仍然 在 队列 中 ， 但 不 可 由 
其 他 Spout/ 拓 扑 /客户 端 读 取 。 如 果 这 样 的 未 确认 消息 通过 拓扑 被 成 功 地 播放 ， 则 它 被 确 
认 并 从 队列 中 移 除 。 如 果 事 件 无 法 通过 拓扑 完成 其 执行 ， 则 认为 它 已 失败 并 重新 排队 ， 
并 可 再 次 使 用 到 Spout。 
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要 注意 最 重要 的 一 点 是 锚 定 。 它 标记 了 DAG 的 所 有 边 并 通过 它 来 播放 元 组 。 锚 定 是 
拓扑 中 进行 连 线 的 开发 人 员 的 选择 ， 但 Storm 只 能 在 锚 定 的 拓扑 中 重播 消息 。 现 在 ， 要 
提出 的 两 个 逻辑 问题 是 : 

口 ” 如 何在 执行 期 间 沿 拓 扑 的 DAG 锚 定 元 组 ? 

口 为 什么 开发 人 员 会 创建 一 个 非 锚 定 拓扑 ? 

下 面 逐 一 回答 上 述 问 题 。 锚 定 相 当 简 单 。 开 发 人 员 应 该 认识 到 从 Bolt 和 Spout RIF 
元 组 是 一 样 的 。 这 里 有 两 个 代码 段 将 其 表示 得 非常 清楚 : 


_collector.emit (new Values (word) ) 7 


上 面 的 代码 片段 是 来 自 不 可 靠 拓扑 的 未 锚 定 版 本 ， 其 中 元 组 在 失败 的 情况 下 不 能 
重 放 。 


//simple anchoring 














collector.emit (new Values(1, 2, 3),msgID); 
List<Tuple> anchors = new ArrayList<Tuple>(); 
anchors.add(tuplel); 

anchors.add(tuple2) ; 

//maltiple anchoring output tuple is anchored to two 
//input tuples viz tuplel and tuple2 
_collector.emit (anchors, new Values(1, 2, 3)); 


第 二 段 代 码 表示 了 锚 定 版 本 ,其 中 使 用 错 列表 将 元 组 绑 在 一 起 ,并且 在 有 任何 故障 的 
情况 下 ， 该 可 靠 拓扑 都 将 能 够 重 放 所 有 事件 。 

现在 来 解答 第 二 个 问题 , 拥有 锚 定 和 可 靠 拓扑 , 在 通过 拓扑 传播 的 记录 保存 和 消息 容 
量 方面 有 些 耗 费 带宽 资源 。 考 虑 到 一 些 不 需要 可 靠 性 的 场景 的 存在 ， 因 此 不 用 锚 定 的 不 
可 靠 拓扑 也 自 有 存在 价值 。 

Storm 中 的 Bolt 可 以 大 至 分 为 两 类 ， 基 本 Bolt 和 负责 聚合 与 联结 的 Bolt. JE Bolt 
简单 明了 ， 被 清楚 地 描绘 于 图 3.8 中 : prepare0 设 置 输出 收集 器 ， 在 处 理 完 元 组 之 后 立即 
将 它们 发 送 到 收集 器 里 。 遵 循 这 个 一 般 模式 的 所 有 Bolt 实际 上 都 是 使 用 TBasicBolt 接 
实现 的 。 图 3.8 还 描绘 了 Storm 中 第 二 类 不 太 简单 的 Bolt， 这 些 Bolt 执行 聚合 与 联结 等 
任务 。 元 组 被 锚 定 到 多 个 输入 元 组 ， 并 于 某 些 时 刻 在 延迟 之 后 被 发 送 ， 延 迟 时 间 是 在 诸 
如 聚合 的 情况 下 预 编 程 设置 的 。 
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图 3.8 


现在 已 经 了 解 到 Storm 的 可 靠 性 ， 下 面 来 谈 谈 其 中 最 重要 的 组 件 ， 这 些 作为 确认 者 
acker 进程 的 组 件 确保 关于 确认 或 故障 的 所 有 更 新 均 成 功 到 达 Spout。 


3.3.2 Storm 的 acking 框架 


了 解 Storm 可 靠 性 后 继续 讨论 其 中 最 重要 的 组 件 ， 其 能 确保 关于 确认 或 故障 的 所 有 
更 新 成 功 到 达 Spout。 它 们 就 是 确认 者 进程 。 这 些 是 与 Spout 和 Bolt 共存 的 轻 量 级 任务 ， 
并 且 负 责 将 所 有 成 功 执行 的 消息 发 送 到 Spout。 在 那里 ， 数 量 由 Storm 配置 中 名 为 
TOPLOGY ACKER EXECUTORS 的 属性 来 控制 : 在 默认 情况 下 ， 这 个 属性 值 等 于 拓扑 
中 定义 的 工作 者 数量 。 如 果 拓 扑 在 较 小 的 TPS 〈 事 务 处 理 系统 的 简称 ) 下 工作 ， 则 应 减 
小 此 数量 。 然而 ， 对 于 高 TPS 的 拓扑 应 增加 此 数量 ， 以 便 配 合 到 达 和 处 理 的 速率 及 时 确 
认 元 组 。 

确认 者 进程 遵循 以 下 算法 来 跟踪 元 组 树 的 完成 情况 ， 其 中 由 拓扑 播放 每 个 元 组 : 

口 保存 元 组 树 的 校 验 哈 希 值 。 

OQ ”对 于 每 个 执行 过 的 元 组 ， 与 元 组 树 的 校 验 哈 希 值 做 XOR 操作 。 

如 果 元 组 树 中 的 所 有 元 组 都 被 确认 ， 则 校 验 和 将 为 0; 否则 ， 它 将 是 非 零 值 ， 后 者 表 
示 拓 扑 中 的 故障 。 这 种 工作 主要 是 使 用 计数 元 组 来 驱动 和 控制 。 

3.9 显示 了 acker 进程 的 工作 流程 。 注意 它 有 一 个 包含 收 支 总 账 或 rotateMap 的 记 
录 保 存 组 件 ， 整 个 工作 流程 基于 计数 元 组 控制 实现 。 
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34 Storm 的 简单 模式 


用 Stomm 工 作 时 可 以 有 多 种 实现 模式 。 在 本 章 尚未 用 到 Trident, 下 面 来 探讨 一 些 Storm 
里 拓扑 实现 的 通用 模式 。 


3.4.1 联结 


联结 Goin) 是 最 常见 的 模式 。 顾 名 思 义 ， 来 自 两 个 或 更 多 个 不 同 流 的 输出 在 某 一 公 
共 字 段 联结 ， 并 且 作为 单个 元 组 发 送 。 在 Storm 中 使 用 字段 分 组 有 效 实现 了 此 模式 ， 这 
就 确保 了 所 有 具有 相同 字段 值 的 元 组 被 发 送 到 相同 的 任务 中 。 图 3.10 和 代码 段 实现 了 其 
中 要 点 : 


TopologyBuilder builder = new TopologyBuilder (); 

builder.setSpout ("gender", genderSpout) ; 

builder.setSpout ("age", ageSpout) ; 

builder.setBolt ("join", new SingleJoinBolt (new Fields ("gender", "age"))). 
fieldsGrouping("gender", new Fields ("id") ) 

-fieldsGrouping("age", new Fields("id")); 


这 里 使 用 字段 分 组 来 有 效 实现 功能 ， 确 保 所 有 具有 同样 字段 值 的 元 组 由 联结 Bolt 
发 送 。 








tream1[ id ege] 






Age Spout 
Stream3[ age,gender] 





Join Bolt 





[c Ear =) Stream2l id gender] 





图 3.10 
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在 这 里 , 有 两 个 流 从 性 别 Spout (Age Spout) 和 年 龄 Spout (Gender Spout) 两 个 Spout 
到 达 ， 它 们 拥有 共同 字段 4d， 两 个 流 经 由 联结 Bolt 联结 后 ， 作 为 拥有 年 龄 和 性 别 字 段 的 
一 个 新 流 发 送出 去 。 


3.4.2 HAE 





批 处 理 是 另 一 种 十 分 常见 的 模式 ， 在 必须 批量 持 有 和 处 理 的 情况 下 发 挥 作用 。 下 面 
通过 举例 来 更 好 地 理解 它 : 假设 有 一 个 Storm 应 用 程序 需要 将 元 组 转 储 到 数据 库 中 ， 为 
了 有 效 利用 网 络 带宽 ， 希 望 数据 库 以 100 批量 写 入 。 除 应 用 事务 性 Trident 拓扑 之 外 ， 最 
简单 的 机 制 是 将 记录 保存 到 本 地 实例 数据 结构 中 ， 同 时 跟踪 计数 并 批量 写 入 数据 库 。 一 
般 可 以 执行 两 种 不 同 的 批 处 理 。 

O ”基于 计数 的 批 处 理 : 根据 计数 来 创建 批 处 理 。 在 prepare0 方 法 中 初始 化 简单 计 
数值 ， 元 组 到 达 时 在 execute( 方 法 中 递增 计数 值 ， 这 个 计数 值 可 以 用 于 批 处 理 
跟踪 。 

O ”基于 时 间 的 批 处 理 ; 根据 时 间 来 创建 批 处 理 。 以 一 个 5 分 钟 的 批 处 理 为 例 ， 如 
果 要 保持 实现 简单 ， 将 创建 一 个 机 制 ， 每 5 分 钟 发 出 一 个 计数 元 组 到 拓扑 中 去 。 

















3.5 Storm 的 持久 性 


现在 已 非常 了 解 Storm 及 其 内 部 结构 ， 下 面 继续 探讨 Storm 的 持久 性 。 所 有 的 计算 
和 代码 业已 完成 ， 这 时 将 计算 结果 或 中 间 参 考 数据 存储 到 数据 库 或 一 些 持久 存储 中 的 工 
作 就 显得 非常 重要 。 既 可 以 选择 编写 自己 的 JDBC Bolt， 也 可 以 使 用 Storm 持久 性 所 提供 
的 实现 工具 。 

先 从 写 自己 的 JDBC 持久 化 程序 开始 ,一 旦 理解 了 其 中 的 细节 ,就 能 明白 并 用 好 Storm 
所 提供 的 实现 工具 。 假 设 要 在 收费 站 设置 软件 系统 来 监测 车 辆 的 排放 指标 ， 并 跟踪 排放 
超过 规定 限额 的 车 辆 细节 。 

如 图 3.11 所 示 ， 这 里 ， 所 有 的 车 辆 细节 和 它们 的 排放 物 信息 保 存在 文件 里 ， 由 文件 
读 取 器 Spout 来 读 取 。Spout 读 取 记 录 后 将 其 馈送 到 拓扑 中 ， 由 解析 器 Bolt 消耗 ， 将 记录 
转换 为 POJO 并 将 其 移交 给 数据 库 Bolt. Jt Bolt 检查 排放 阔 值 ， 如 果 超 过 规定 限制 ， 则 
记录 将 保留 到 数据 库 中 。 
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图 3.11 
以 下 显示 了 输入 拓扑 的 文件 信息 段落 : 


#Vehicle Registration number, emission rate, state 
UP14 123, 60, UP 

DL12 2653, 70, DELHI 

DL2C 2354, 40, DELHI 


接着 是 通过 设置 与 数据 库 的 连接 来 处 理 数据 库 部 分 和 持久 化 的 代码 段 。 在 这 里 , 使 用 
MySQL 数据 库 作为 简化 应 用 。 实 际 上 ，Storm 既 适 用 于 如 Oracle 或 SQL Server 这 样 的 





SQL 存储 (如 服务 器 )， 也 适用 于 如 Cassandra 的 NoSQL 存储 。 参 考 代码 段 如 下 : 


try 

{ 

Connection driverManager.getConnection ( 
"jdbc:mysql://"+databaseIP+":"+databasePort+"/"+databaseName, 


userName, pwd); 


connection.prepareStatement ("DROP TABLE IF EXISTS "+tableName) . execute () ; 


StringBuilder createQuery = new StringBuilder ( 

"CREATE TABLE IF NOT EXISTS "+tableName+"(") 7 

for (Field fields : tupleInfo.getFieldList ()) 

f 

if (fields.getColumnType() .equalsIgnoreCase ("String") ) 
createQuery.append (fields .getColumnName ()+" VARCHAR (500) ,"); 


connection.prepareStatement (createQuery.toString()).execute(); 
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// Insert Query 

StringBuilder insertQuery = new StringBuilder ("INSERT INTO" 
+tableName+" (") ; 

String tempCreateQuery = new String(); 

for (Field fields : tupleInfo.getFieldList ()) 

ü 

insertQuery.append (fields.getColumnName ()+",") 7 

i 


prepStatement = connection.prepareStatement (insertQuery.toString()); 
} 


在 上 面 的 代码 段 中 ， 实 际 上 使 用 查询 构建 器 创建 了 一 个 准备 声明 ， 并 将 字段 添加 到 
模板 中 。 

后 面 的 代码 段 实 际 上 呈现 了 格式 化 并 执行 插入 查询 的 操作 ， 其 方法 是 用 来 自 元 组 的 
实际 值 填充 模板 ， 形 成 批量 化 事件 ， 并 在 达到 批量 大 小 要 求 后 将 其 写 入 数据 库 。 有 关 代 
人 码 如 下 所 示 : 


if (tuple!=null) 

{ 

List<Object> inputTupleList = (List<Object>) tuple.getValues(); 
int dbIndex=0; 

for(int i=0;i<tupleInfo.getFieldList ().size();i++) 

{ 

Field field = tupleInfo.getFieldList() .get (i); 

if (field. getColumnType() .equalsIgnoreCase ("String") ) 
prepStatement.setString(dbIndex, inputTupleList.get (i) .toString()); 
else if (field.getColumnType() .equalsIgnoreCase ("int") ) 
prepStatement.setInt (dbIndex, 

Integer.parseInt (inputTupleList.get (i) .toString())); 


else if (field.getColumnType() .equalsIgnoreCase ("boolean") ) 
prepStatement .setBoolean (dbIndex, 
Boolean.parseBoolean (inputTupleList.get (i) .toString())); 
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Date now = new Date(); 

EEY 

{ 

prepStatement.setTimestamp (dbIndex+1, new 
java.sql.Timestamp (now.getTime())); 
prepStatement .addBatch () ; 

counter. incrementAndGet () ; 

if (counter.get()-- batchSize) 
executeBatch (); 

} 


} 
public void executeBatch() throws SQLException 


{ 

batchExecuted=true; 
prepStatement .executeBatch () ; 
counter = new AtomicInteger (0); 


} 
下 一 步 是 将 所 有 的 Spout 和 Bolt 连接 在 一 起 ， 以 便 看 到 实际 的 拓扑 : 


MyFileSpout myFileSpout = new MyFileSpout (); 


ParserBolt parserBolt = new ParserBolt(); 

DBWriterBolt dbWriterBolt = new DBWriterBolt(); 

TopologyBuilder builder = new TopologyBuilder(); 

builder.setSpout ("spout",myFileSpout, 1); 

builder.setBolt ("parserBolt", parserBolt,1) .shuffleGrouping ("spout"); 
builder.setBolt ("dbWriterBolt", dbWriterBolt, 1) .shuffleGrouping("thres 
holdBolt"); 


前 面 的 代码 段 实际 上 已 可 作为 一 个 自己 动手 的 模板 ,读者 可 以 尝试 自行 执行 这 个 拓扑 。 

下 面 介绍 Storm 的 JDBC 持久 性 框架 。 

前 面 介绍 了 Storm 持久 性 的 代码 实现 , 现在 将 探讨 Storm 提供 的 持久 性 程序 框架 , 这 
个 框架 可 为 开发 人 员 节 约 大 量 工作 。 使 用 这 个 基于 模板 的 框架 ， 可 以 快速 将 持久 性 结合 
到 Storm 拓扑 中 。 

该 框架 的 一 些 关 键 组 成 部 分 如 下 。 











T 
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O ConnectionProvider 接口 : 该 接口 方便 了 用 户 驱 动 连接 池 的 使 用 。 默 认 情况 下 ， 
Storm 持久 性 框架 支持 HikariCP 的 实现 。 

口 JdbcMapper 接口 : 这 是 将 元 组 基本 映射 到 表 列 的 主要 组 件 。SimpleJDBCMapper 
是 一 个 立即 可 用 的 简单 实现 。 以 下 来 自 Storm 范例 的 代码 段 包含 更 多 具体 实现 : 


Map hikariConfigMap = Maps.newHashMap (); 

















hikariConfigMap.put ("dataSourceClassName", "com.mysql .jdbc.jdbc2. 
optional .MysqlDataSource") ; 

hikariConfigMap.put ("dataSource.url", 
"jdbc:mysql://localhost/ test"); 

hikariConfigMap.put ("dataSource.user", "root") ; 
hikariConfigMap.put ("dataSource.password", "password") ; 

ConnectionProvider connectionProvider = new 

HikariCPConnectionProvider (hikariConfigMap) ; 

String tableName = "user details"; 

JdbcMapper simpleJdbcMapper = new SimpleJdbcMapper (tableName, 
onnectionProvider); 


然后 , 使 用 JDBCLookupbolt 从 数据 库 读 取 , 再 用 JDBCInsertBolt 将 数据 插入 数据 库 。 
下 面 是 有 关 功 能 一 起 发 挥 作用 的 参考 代码 : 


JdbcLookupBolt departmentLookupBolt = new JdbcLookupBolt ( 
connectionProvider, SELECT QUERY, this.jdbcLookupMapper) ; 

// must specify column schema when providing custom query. 

List<Column> schemaColumns = Lists.newArrayList (new 

Column( "create date", Types.DATE), new Column("dept name", 
Types.VARCHAR), new Column ("user id", Types. INTEGER), 

new Column ("user name", Types.VARCHAR) ) 7 

JdbcMapper mapper = new SimpleJdbcMapper (schemaColumns) ; 

JdbcInsertBolt userPersistanceBolt = new JdbcInsertBolt ( connectionProvider, 
mapper) .withInsertQuery("insert into user (create date, dept name, user 
id, user name) values (?,?,?,?)"); 

// userSpout ==> jdbcBolt 

TopologyBuilder builder = new TopologyBuilder(); builder.setSpout (USER SPOUT, 
this.userSpout, 1); builder.setBolt(LOOKUP BOLT, departmentLookupBolt,1). 
shuffleGrouping (USER SPOUT); 

builder.setBolt (PERSISTANCE BOLT, userPersistanceBolt,1). shuffleGrouping 
(LOOKUP_BOLT) ; 
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这 里 提供 的 代码 段 中 仅 使 用 Storm 持久 性 框架 提供 的 Bolt 将 数据 写 入 数据 库 。Spout 
发 送 元 组 以 插入 Bolt， 其 中 元 组 值 被 映射 到 插入 查询 的 字段 中 ， 然 后 查找 Bolt 获取 部 门 
值 ， 最 终 由 持久 性 Bolt 将 数据 插入 表 中 。 
à 下 载 示例 代码 
用 户 可 以 从 http://www.packtpub.com 的 账户 下 载 本 书 的 示例 代码 文件 。 如 果 
在 其 他 地 方 购买 本 书 ， 则 可 以 访问 http://wwwpacktpub.com/support 并 注册 以 
取得 文件 直接 发 送 给 您 。 
用 户 可 以 通过 以 下 步骤 下 载 代码 文件 : 
。 使 用 电子 邮件 地 址 和 密码 登录 或 注册 。 
* ARAB BIE EM Spay Xd (SUPPORT) 选项 卡 上 。 
。 单 击 代码 下 载 和 勘误 (Code Downloads&Errata ) 选项 。 
。 在 搜索 框 中 输入 书籍 的 名 称 。 
。 选 择 要 下 载 代码 文件 的 书籍 。 
。 从 购买 此 图 书 的 下 拉 菜 单 中 选择 。 
。 单 击 代码 下 载 (Code Download ). 
下 载 文件 后 ， 请 确保 使 用 以 下 最 新 版 本 解压 缩 或 解压 缩 文件 夹 : 
。 适 用 于 Windows 的 WinRAR / 7-Zip 
。 适 用 于 Mac 的 Zipeg / iZip / UnRarX 
。 适 用 于 Linux 的 7-Zip / PeaZip 











36 本 章 小 结 


本 章 重 点 在 于 让 读者 熟悉 Kafka 及 其 基础 知识 。 此 外 ， 还 整合 了 Katka 和 Storm， 探 
RT Storm 的 文件 和 套 接 字 等 其 他 数据 源 ， 然 后 介绍 了 可 靠 性 和 锚 定 等 概念 , 还 对 Storm 
的 联结 和 批 处 理 模式 建立 了 理解 。 最 后 , 通过 Storm 与 数据 库 的 集成 , 了 解 并 实现 了 Storm 
中 的 持久 性 。 本 章 介绍 了 一 些 动手 练习 示例 ， 建 议 读 者 自行 尝试 实现 。 

在 第 4 章 中 将 介绍 作为 Storm 扩展 而 构建 的 Trident 抽象 ， 用 于 提供 事务 和 小 微 批 处 
理 功 能 ， 还 将 探求 Lmax、ZeroMQ 和 Netty 内 部 机 制 ， 并 学 习 Storm 的 优化 之 道 。 


第 4 章 Trident 概述 和 Storm 性 能 优化 


在 本 章 ,将 熟悉 Storm 的 Trident 框架 ,然后 开始 Storm 优化 的 旅程 一 一 熟悉 影响 Storm. 
作业 性 能 的 各 种 参数 ， 并 提出 识别 和 调整 相关 参数 的 建议 ， 还 将 研究 在 行业 范围 内 用 于 
Storm 监测 和 基准 测试 的 工具 。 

Trident 框架 

T f LMAX 

Storm 节点 间 通 信 (ZeroMQ 与 Netty) 
了 解 Storm UI 

优化 Storm 性 能 





oooooo 


4.1 使 用 Trident 


在 本 书 中 将 Storm 描述 为 一 套 高 性 能 、 实 时 流 计算 工具 的 解决 方案 。 但 在 现实 中 ， 
所 有 实时 用 例 都 并 非 实 时 ， 它 们 只 是 实时 地 延伸 和 使 用 微小 批 处 理 的 合并 。 先 给 出 一 些 
例子 予以 说 明 。 

假设 想 知道 前 五 名 业绩 最 佳 的 股票 名 称 ， 此 数据 应 反映 过 去 10 分 钟 的 股票 业绩 。 此 
外 ， 还 想 知道 过 去 5 分 钟 脸 书 上 最 受 欢迎 的 照片 是 哪 张 。 

有 许多 场景 需要 以 小 单元 批量 方式 处 理 实时 流 数 据 及 满足 类 似 的 计算 需求 ， 因 此 需 
要 对 Storm 进行 扩展 。 

Trident 像 Storm 一 样 最 初 源 于 推 特 旗下 的 技术 。 在 高 层次 看 来 ， 它 是 在 Storm 框架 
顶部 的 扩展 和 抽象 ， 具 有 批量 处 理 、 状 态 化 处 理 和 流 数据 查询 这 些 额 外 功能 。Trident fù 
许 用户 针 对 流 式 数据 、 按 计数 /时 间 分 配 执行 查 询 ， 并 且 其 分 布 式 的 执行 特性 体现 出 很 高 
的 性 能 。 

Trident 具有 过 滤器 、 联 结 和 聚合 等 广泛 的 功能 ， 包 含 可 为 小 微 批 处 理 时 间 窗 问题 创 
建 优秀 解决 方案 所 需 的 所 有 工具 。 1% Storm —#¥, Trident 也 使 用 Spout 和 Bolt, 但 Trident 
抽象 层 在 拓扑 执行 之 前 自动 生成 它们 。 
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事务 


Trident 执行 的 事务 实际 上 是 将 数据 分 块 为 批 处 理 , 故而 它 与 Storm 的 主要 区 别 在 于 : 
Storm 对 元 组 逐一 进行 处 理 ， 而 Trident 在 将 元 组 批量 化 为 事务 之 后 再 处 理 这 些 事务 。 从 





概念 上 讲 ， 











这 些 事务 与 数据 库 事务 非常 相似 : 





oooo 


口 


4.1.2 


每 个 事务 都 有 一 个 事务 ID 。 

事务 通过 执行 beginCommit 开始 。 

在 批 处 理 中 的 所 有 事件 成 功 执行 后 ， 该 事务 被 标记 为 成 功 。 

如 果 事 务 的 任何 事件 /元 组 处 理 失 败 ， 则 整个 批 处 理 将 回 滚 并 重新 排队 以 待 重新 
执行 。 

在 成 功 执行 后 以 确认 提交 方式 结束 。 


Trident 拓扑 


Trident 抽象 后 公开 有 一 套 API， 可 为 开发 人 员 提 供 创建 拓扑 类 的 支持 。 在 代码 段 中 
将 使 用 该 框架 提供 的 TridentTopology 类 。 在 深入 介绍 之 前 ， 先 在 Storm 和 Trident 间 比 较 
一 下 ， 以 便 更 好 地 理解 Trident 中 的 概念 : 


oooo 


Storm 的 拓扑 中 ，Bolt 执行 由 Spout 发 送 来 的 每 个 元 组 。 

Trident 的 拓扑 在 输入 流 上 按 顺 序 执行 过 滤 、 聚 合 、 分 组 等 操作 。 

Storm 元 组 是 单个 事件 ， 而 Trident 元 组 是 批量 事件 /事务 。 

在 Storm 中 ， 计 算 / 处 理发 生 在 Bolt 的 execute0 方 法 中 。 而 在 Trident 中 ， 计 算 / 
处 理 以 操作 的 方式 发 生 。 


简单 Trident 拓扑 可 以 使 用 以 下 代码 段 生成 : 


TridentTopology myTridentTopology = new TridentTopology(); 


1. Trident 元 组 

对 前 面 的 类 比 扩展 一 下 , Trident 元 组 可 以 被 描述 为 Trident 拓扑 能 够 处 理 的 单个 数据 
单元 。 在 API 里 它 被 公开 为 一 个 接口 TridentTuple， 由 其 组 成 拓扑 的 数据 模型 。 

2. Trident spout 

在 基本 术语 中 , 相对 于 在 Storm 使 用 的 IRichSpout, Trident 中 Spout 有 一 些 额外 的 功 
能 。 其 中 之 一 是 事务 特征 的 展示 。 此 处 将 使 用 API 所 提供 的 名 为 ITridentSpout 的 接口 来 
扩展 。 Trident 提供 了 多 种 通用 Spout 和 一 些 样 例 Spout。 例 如 ，FeederBatchSpout 为 批 处 
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理 命名 元 组 列表 ， 并 将 其 发 布 到 拓扑 中 : 


TridentTopology myTridentTopology = new TridentTopology(); 
FeederBatchSpout myTestSpout = new FeederBatchSpout (ImmutableList.of 
("fromMobile", "toMobile", "duration")); 
myTridentTopology.newStream("fixed-batch-spout", myTestSpout) ; 
myTestSpout . feed (ImmutableList.of (new Values ("981100000", "9800110011", 
200))); // from Mobile No, To Mobile No, duration in ms 


在 这 里 ,创建 了 一 个 简单 的 Trident 拓扑 实例 ,并 将 名 为 myTestSpout 的 FeederBatchSpout 
的 新 实例 添加 到 其 中 ， 然 后 将 一 个 单一 元 组 送 入 myTestSpout 实例 。 





4.1.83 Trident 操作 


如 前 所 述 ，Trident 中 的 处 理 /执行 单元 是 一 种 操作 ， 其 实际 上 处 理 Trident 元 组 构成 
的 输入 流 ， 具 有 丰富 强健 的 操作 集 ， 可 对 流 数据 执行 广泛 多 样 、 简 单 或 复杂 的 计算 。 在 
下 一 节 中 ， 将 介绍 一 些 常用 的 Trident 操作 。 

1. 合并 和 联结 

合并 和 联结 操作 用 于 将 一 个 或 多 个 流 组 合成 单一 流 。 它 调用 合并 函数 来 操作 。 联 结 
同 数据 库 连 接 相 似 ， 使 用 来 自 两 侧 的 Trident 元 组 字段 来 核查 ， 然 后 联结 这 两 个 流 : 


TridentTopology myTridentTopology = new TridentTopology(); 
myTridentTopology. merge(streaml, stream2, stream3); 





myTridentTopology.join(streaml, new Fields ("key"), stream2, new Fields ("x") 

new Fields("key", "a", "b", "c")); 

2. 过 滤器 

此 操作 的 功能 名 副 其 实 , 通常 在 验证 输入 的 情况 下 使 用 。 在 有 输入 的 情况 下 , Trident 
过 滤器 获取 Trident 元 组 字段 的 子 集 ,并 且 根 据 某 些 条 件 是 否 满足 返回 布尔 值 tue 或 false。 
1E true 情况 下 元 组 保留 在 输出 流 中 ， 而 在 false 情况 下 元 组 被 丢弃 。 这 里 的 代码 段 提供 了 
有 助 于 读者 理解 的 有 关 示 例 : 


public class MyTestFilter extends BaseFilter { 





public boolean isKeep(TridentTuple tuple) { 
return tuple.getInteger(1) $ 2 == 0; 
} 
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// 输 入 
[L 4] 
[1, 5] 
[1, 8] 
// 输 出 
[| 
[1, 8] 


下 面 是 表示 对 每 个 Trident 元 组 进行 相同 拓扑 调用 的 参考 代码 段 : 


TridentTopology myTidentTopology = new TridentTopology (); 
myTidentTopology.newStream("spout", spout) .each (new Fields("a", "b"), 
new MyTestFilter()) 


3. 函数 
函数 继承 自 BaseFunction 类 并 在 单个 Trident 元 组 上 执行 。 其 关键 特性 为 可 以 接受 单 
个 输入 值 并 发 送 零 个 或 多 个 元 组 作为 输出 。 函 数 操作 的 输出 附加 到 输入 元 组 的 尾部 后 再 
一 起 发 送 到 输出 流 : 
public class MyTestFunction extends BaseFunction { 
public void execute (TridentTuple tuple, TridentCollector collector) { 
int a = tuple.getInteger (0); 


int b = tuple.getInteger (1); 
collector.emit (new Values (a + b)); 





) 


// 输 入 
[1, 2] 
[1, 3] 
[1, 4] 


// 输 出 

[ily Be Sil 
I1, 3, 4] 
[i 2b, ui 


下 面 是 表示 对 每 个 Trident 元 组 进行 相同 拓扑 调用 的 参考 代码 段 : 


TridentTopology myTidentTopology = new TridentTopology(); 
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myTidentTopology.newStream("spout", spout) .each (new Fields("a, b"), 
new MyTestFunction (), new Fields("d"))); 


4. 聚合 


聚合 是 基本 的 Trident 操作 ， 其 对 输入 Trident 批 处 理 〈 事 务 )、 流 或 分 区 执行 聚合 或 
合并 的 操作 。 图 4.1 显示 了 三 种 Trident 聚合 操作 的 情况 。 


Aggregates each batch of Trident tuplesin isolation. During the 
femme 22eregate process, the tuples are initially repartitioned using the 
global grouping to combine all partitions of the same batch into a 

single partition. 


Partition Aggregate 


Aggregates each partition instead of the entire batch of Trident 

tuples.The output of the partition aggregate completely replaces 

the input tuple. The output of the partition aggregate contains a 
single field tuple. 


= 
e 
4 
© 
二 
o 
Q 
O 
[em 
o 
un 
[19] 
bn 


Persistence Aggregate 


— Aggregates on all Trident tuples across all batches and stores the 
result in either memory or a database 








图 4.1 
下 面 是 表示 Trident 框架 所 提供 聚合 操作 的 易于 理解 的 代码 段 : 


TridentTopology myTidentTopology = new TridentTopology (); 


// aggregate operation 

myTidentTopology.newStream("MySpout", spout) 
.each (new Fields("a, b"),new MyFunction(), new Fields("d")) 
-aggregate (new Count(), new Fields ("count") ) 


// partitionAggregate operation 
myTidentTopology.newStream("MySpout", spout) 
-each (new Fields("a, b"), new MyFunction(), new Fields("d")) 


ngs 实时 大 数据 分 析 一 一 基于 Storm. Spark 技术 的 实时 应 用 
.partitionAggregate (new Count(),new Fields ("count") ) 


// persistentAggregate - saving the count to memory myTidentTopology. 
newStream("MySpout", spout) 
-each (new Fields("a, b"), new MyFunction(), new Fields("d") ) 
.persistentAggregate (new MemoryMapState.Factory(), new Count(), 
new Fields ("count") ); 


在 前 面 示例 中 使 用 了 计数 聚合 器 。 这 是 Trident 框架 提供 的 内 置 聚 合 器 之 一 ， 使 用 
CombinerAggregator 实现 。 作 为 蔡 代 方 案 , 也 可 使 用 CombinerA ggregator, ReducerA ggregator 
或 通用 聚合 器 接口 来 创建 聚合 操作 。 下 面 的 代码 段 表 示 了 聚合 操作 的 快速 实现 : 


public class Count implements CombinerAggregator<Long> { 
GOverride 
public Long init(TridentTuple tuple) ( 
return 1L; 

















@override 
public Long combine(Long vall, Long val2) { 
return vall + val2; 


@override 
public Long zero() { 
return OL; 


} 
5. 组 合 
Trident 框架 的 这 些 操作 类 似 于 关系 模型 中 的 groupBy 操作 ， 唯 一 的 区 别 在 于 这 些 操 
作对 来 自 输入 源 的 元 组 流 执行 ， 而 在 关系 数据 库 中 它们 对 表 中 的 记录 执行 。 
一 个 通过 调用 groupBy0 方 法 执行 的 内 置 操作 。 这 一 方法 通过 在 指定 字段 上 执行 
partitionBy 操作 来 重新 分 配 输入 流 。 完 成 后 在 每 个 分 区 内 相同 组 字段 的 元 组 都 组 合 在 一 
起 。 示 例 代 码 如 下 : 


TridentTopology myTridentTopology = new TridentTopology(); 








// persistentAggregate - saving the count to memory 
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myTridentTopology.newStream("spout", spout) 
-each (new Fields("a, b"), new MyFunction(), new Fields("d")) 
-groupBy (new Fields ("d") 
.persistentAggregate (new MemoryMapState.Factory(), new Count(), 
new Fields ("count")); 


6. 状态 维护 


Trident 的 关键 特性 之 一 是 提供 了 一 种 机 制 ， 这 种 机 制 下 ， 在 拓扑 中 、 缓 存 中 或 单独 
的 数据 库 中 存储 状态 信息 。 这 是 框架 所 提供 的 必 不 可 少 的 功能 ， 因 为 如 果 元 组 执行 失败 
必须 保证 它 能 被 重 放 。 由 于 执行 是 批 处 理 的 ， 所 以 整个 事务 必须 回 滚 并 重 放 。 通 常 建议 
开发 人 员 创建 小 批量 的 元 组 ， 其 中 每 个 批量 都 用 唯一 的 ID 标记 。 系 统 以 有 序 的 方式 维护 
和 执行 批 处 理 的 更 新 。 

样 例 实践 涵盖 了 Trident 的 各 个 方面 。 在 接 下 来 的 部 分 将 讨论 Storm 内 部 实际 上 决定 
其 性 能 的 关键 点 。 








42 理解 LMAX 


对 Storm 速度 有 贡献 的 一 个 关键 方面 是 LMAX disruptor (粉碎 器 ) 于 队列 处 理 的 应 用 。 
在 前 面 章节 中 曾经 谈 过 此 类 话题 ， 而 现在 将 更 深入 一 些 。 为 能 把 握 好 LMAX 在 Storm 中 的 
使 用 ， 首 先 要 熟悉 交换 平台 LMAX. 
稍微 重申 一 下 前 面 章 节 中 有 关 Storm 内 部 通信 的 内 容 : 
O 在 同一 个 工作 者 上 执行 的 不 同 进程 内 的 通信 〈 换 句 话说 ， 在 单个 Storm 节点 上 
的 线程 间 通 信 ) : Storm 框架 的 设计 很 适合 LMAX disruptor 应 用 。 
口 同一 节点 上 不 同 工 作者 间 在 该 节点 内 的 通信 (这 里 可 以 使 用 ZeroMQ 或 Netty) 。 
O ”两 个 拓扑 之 间 的 通信 通过 外 部 和 非 Storm 机 制 实现 ， 比 如 队列 〈 像 RabbitMQ、 
Kafka 等 ) 或 分 布 式 缓 存 机 制 ( 像 Hazelcast、Memcache 等 ) 。 
基本 上 LMAX 在 世界 范围 内 是 性 能 最 优化 的 ， 因 此 也 是 迄今 为 止 最 快 的 交易 平台 。 
其 低 延 迟 、 简 化 设计 和 高 吞吐 量 已 得 到 普遍 认可 。 那 么 ， 是 什么 关键 因素 使 得 LMAX 粉 
碎 器 如 此 之 快 而 使 传统 的 数据 交换 系统 慢 得 相形 见 纳 呢 ?答案 在 于 它 的 队列 。 在 处 理 的 
各 个 阶段 ， 传 统 上 所 有 数据 交换 系统 都 是 在 组 件 之 间 传 递 数据 。 使 用 队列 的 同时 实际 上 
引入 了 延迟 。 着 眼 于 队列 的 竞争 问题 ， 粉 碎 器 通过 使 用 新 的 环形 缓冲 粉碎 器 数据 结构 来 
优化 /消除 了 延迟 的 困扰 。 实 际 上 这 个 粉碎 器 数据 结构 就 是 LMAX 框架 的 核心 。 
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在 核心 上 , 它 只 是 一 个 由 LMAX 创建 的 开源 Java 库 , 主要 是 关于 重用 内 存 及 具有 纯 
粹 顺序 的 实质 。 越 对 它 深入 了 解 ， 就 越 被 它 的 简单 性 和 非 并 发 实现 所 吸引 。 道 理 很 简单 : 
需要 很 好 地 理解 硬件 才能 够 充分 利用 其 开发 制作 出 最 有 效 的 解决 方案 来 。 这 里 想 引 用 
Martin Fowler 博客 上 Henry Petroski 的 话 : 

“计算 机 软件 行业 最 令 人 惊讶 的 成 就 是 它 在 不 断 超越 计算 机 硬件 行业 所 取得 的 稳定 
和 惊人 的 增长 。” 


4.2.1 ”内 存 和 缓存 


下 面 快速 重 温 一 下 脑海 中 操作 系统 的 内 存 组 织 形象 。 
图 4.2 描述 了 带 有 SRAM /缓存 的 主 内 存 以 及 带 有 存储 缓冲 区 的 三 个 层次 。 


Main Memory 


L3 SRAM 
L2 SRAM 


Store 
Buffers «ETE 


Registers 
Registers 





图 4.2 


现在 ， 进 一 步 详细 说 明 内 核 如 何 使 用 内 存 和 缓存 以 及 内 核 之 间 的 数据 定位 。 寄 存 器 
最 靠近 访问 的 内 核 ， 其 次 是 存储 缓冲 区 。 这 些 存 储 缓冲 区 按照 执行 的 顺序 来 为 存储 器 访 
问 消除 歧义 。 通 常 ， 来 自 先前 操作 的 操作 数 和 中 间 结 果 从 寄存 器 移动 过 来 以 配合 操作 数 。 
如 果 还 对 通过 汇编 语言 访问 内 存 通道 有 印象 ， 会 有 助 于 回忆 起 加 载 和 保存 寄存 器 中 数据 
的 方式 。 寄 存 器 数量 有 限 ， 同 时 所 有 数据 必须 在 寄存 器 中 执行 处 理 。 因 此 ， 在 执行 指令 
期 间 ， 经 常 将 中 间 结 果 / 数 据 加 载 和 装 入 存储 缓冲 器 中 。 众 所 周知 的 是 ， 这 些 寄 存 器 最 接 
近 核 心 并 且 速 度 最 快 。 所 有 的 缓存 在 核心 外 的 各 个 层次 上 保存 数据 ， 所 以 缓存 虽 比 主 内 
存 快 ， 但 仍然 没有 寄存 器 那么 快 。 
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下 面 通过 简单 实例 来 了 解 这 种 效率 情况 。 笔 者 为 6 个 项 目的 迭代 处 理 写 指令 集 OL 
在 假设 有 4 个 存储 缓冲 区 ， 并 且 已 有 4 个 项 目的 数据 保存 在 存储 缓冲 区 中 ， 而 另外 两 个 
项 目的 数据 则 保存 在 存储 缓冲 器 之 外 )。 一 般 每 个 应 用 程序 可 以 访问 4 个 存储 缓冲 区 ， 因 
此 在 一 个 循环 中 迭代 6 个 项 目 比 在 两 个 循环 中 各 迭代 3 个 项 目 要 慢 〈 该 事实 经 过 基准 化 
测试 ， 可 以 参考 Martin Thompson 的 博客 http://mechanical-sympathy.blogspot.in/)。 不 只 是 
模块 化 编程 心态 ， 连 同上 下 文 切换 和 加 载 / 印 载 造成 性 能 上 的 损失 都 令 人 震惊 。 在 硬件 层 
面 ， 前 面 已 被 证 实 的 例子 确实 有 实际 意义 。 建 议 所 有 程序 员 可 以 更 广泛 地 了 解 机 器 内 部 
运作 机 制 ， 以 便 更 好 地 发 挥 硬件 效率 。 这 对 LMAX 粉碎 器 非常 重要 。 

从 寄存 器 移动 到 存储 器 会 使 等 待 时 间 从 纳 秒 级 增加 到 微 秒 级 ， 因 此 编写 代码 /指令 时 
应 该 有 意识 地 努力 使 得 所 执行 的 数据 位 置 更 贴近 于 内 核 ， 这 会 带 来 执行 速度 显著 提升 的 
效果 。 

现在 再 探索 一 下 缓存 有 关内 容 ， 来 理解 图 4.3 所 显示 的 几 个 关键 方面 。 


Cold Cache 





Capacity 





Conflict [ Mapping 
/Replacement 


图 4.3 


众所周知 ， 缓 存 错失 (Cache Miss) 代价 很 大 ， 理 应 避免 ， 但 人 们 也 知道 这 种 事 总 会 
发 生 的 原因 。 相 对 缓存 容量 来 说 ， 人 们 总 希望 保存 更 多 的 数据 ， 因 此 基于 缓存 策略 (无 
论 多 好 和 高 效 )， 必 然 会 发 生 缓存 错失 的 情况 。 要 以 更 多 的 技术 术语 来 说 明 原因 ， 势 必要 
联系 图 4.3 中 描述 的 情况 。 
O 冷 缓存 (Cold Cache) : 这 是 指 被 占用 、 但 从 未 被 访问 或 读 取 的 缓存 部 分 。 
O XE (Capacity) : 缓存 大 小 有 限 ， 因 此 必须 适时 驱逐 以 容纳 新 数据 。 类 似 地 ， 
也 要 考虑 算法 负载 可 容纳 的 数据 情况 。 
O ”映射 / 蔡 换 冲突 (Conflict[ Mapping / Replacement ]) : 这 与 数据 的 相连 性 有 关 。 
特定 数据 必须 在 特定 位 置 ， 否 则 就 会 丢失 。 蔡 代 的 另 一 种 解决 方式 是 驱逐 。 
另 一 处 值得 注意 的 地 方 是 ， 当 从 缓存 中 读 取 时 ， 根 据 架 构 返 回 的 内 容 总 是 64 位 /32 
位 缓存 线 。 在 多 处 理 器 设置 的 情况 下 ， 即 使 处 理 器 实际 在 访问 同一 缓存 线 上 的 不 同 数据 ， 
处 理 器 之 间 也 存在 着 缓存 线 更 新 内 容 的 竞争 情况 。 
对 于 高 性 能 ， 有 以 下 几 点 需要 注意 : 
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口 不 要 共享 缓存 线 以 避免 竞争 。 

O ”在 数据 组 织 中 按 顺序 来 ， 同 时 让 硬件 来 完善 数据 。 例 如 ， 当 在 列表 中 实现 迭代 
时 ， 数 据 结构 是 按 顺 序 定义 的 ， 因 此 可 以 在 缓存 中 被 完善 。 

O GC (垃圾 回收 机 制 的 缩写 ) 和 压缩 ， 特 别 是 老 一代 的 实现 方式 应 该 尽量 避免 。 
例如 编写 代码 只 应 用 来 自 Eden 区 新 生 代 的 数据 。 

O ”每 天 重新 启动 ， 如 此 一 来 不 需要 压缩 。 

LMAX 开发 方面 已 考虑 到 高 性 能 ， 并 设计 了 名 为 粉碎 器 的 有 趣 的 数据 结构 。 图 4.4 

显示 了 粉碎 器 对 程序 性 能 的 一 些 关 键 贡献 。 


Control i allocate 


the core & reuse 
memory 





对 关键 贡献 的 简要 说 明 如 下 : 

ü ”控制 内 核 ， 永 远 不 会 将 内 核 释 放 到 核心 (从 而 保持 了 13 缓存 ) o 

Q ”以 非 竞争 方式 编写 代码 ， 核 心中 的 上 下 文 切 换 会 导致 待 锁 线程 的 挂 起 直到 被 释 
放 ， 这 种 锁定 对 性 能 的 负面 影响 非常 严重 。 


gf 请 注意 ， 在 内 核 上 下 文 切换 期 间 ， 操 作 系统 可 能 会 决定 执行 与 进程 无 关 的 其 
NO 他 任务 ， 从 而 损失 宝贵 的 执行 周期 。 


O 避免 内 存 屏 障 。 在 深入 探讨 之 前 ， 先 回顾 一 下 内 存 屏障 的 经 典 定 义 https://en. 
wikipedia.org/wiki/Memory _barrier， 内 容 非常 简洁 明了 : 内 存 屏障 ， 也 称 内 存 栅 
栏 、 内 存 栅 障 或 屏障 指令 等 ， 是 一 类 同步 屏障 指令 ， 是 CPU 或 编译 器 在 对 内 存 
随机 访问 的 操作 中 的 一 个 同步 点 ， 使 得 此 点 之 前 的 所 有 读 写 操作 都 执行 后 才 可 
以 开始 执行 此 点 之 后 的 操作 。 


第 4 章 Trident 概述 和 Storm 性 能 优化 *69* 





处 理 器 使 用 内 存 栅栏 membar 来 划分 代码 中 的 段落 , 这 里 应 该 着 重 于 坚持 更 新 内 
存 的 顺序 。 值 得 注意 的 是 ，Java 编译 器 也 添加 了 内 存 栅栏 的 volatile 关键 字 引 用 
示例 。 
口 ” 预 分 配 和 使 用 顺序 存储 器 。 要 这 样 做 的 主要 原因 在 于 预 读 缓存 中 的 数据 ， 避 免 
争 用 缓存 线 ， 并 且 重 用 降低 了 由 GC 和 压缩 引起 的 成 本 影响 。 
O ”线程 控制 是 开发 低 延 迟 、 吞 吐 量 系 统 时 需要 考虑 的 极为 重要 的 任务 。 
这 里 有 一 个 启发 性 的 问题 : 为 什么 不 使 用 队列 ? 与 粉碎 器 框架 相 比 ， 是 什么 使 它们 
显示 出 非 效 率 性 ? 有 如 下 几 个 突出 的 原因 : 
口 “” 当 到 达 无 界 队列 的 疆域 时 ， 已 无 法 使 用 失去 了 连续 性 的 链表 ， 由 此 也 不 支持 跨 
越 处 理 〈 预 取 缓存 线 ) 。 
Q “现在 的 明显 选择 是 依赖 于 数组 的 有 界 队 列 。 有 一 个 头 部 〈 读 取 队 列 的 消息 ) 和 
尾部 〈 消 息 被 馈送 到 队列 中 ) ， 这 是 经 典 的 入 队 和 出 队 操作 。 但 是 需要 理解 ， 
这 些 基本 的 队列 操作 不 仅 是 写 数据 争 用 的 主要 原因 , 还 需要 共享 缓存 线 。 在 Java 
中 ， 队 列 被 称 为 重 GC 数据 结构 。 对 于 有 界 队 列 ， 必 须 分 配 数据 的 内 存 ， 而 且 
对 无 界 队 列 还 必须 分 配 链表 节点 。 当 取消 引用 或 标记 为 GC 时 ， 所 有 对 象 都 必 
须 收 回 。 
O 在 数据 结构 和 框架 中 ， 以 粉碎 器 建 模 的 方式 智能 地 利用 机 器 内 部 运作 机 制 : 
> ”这 个 系统 的 设计 旨 在 通过 硬件 的 自然 功能 尽 可 能 有 效 地 利用 缓存 。 
> ”开始 于 在 启动 时 创建 一 个 大 型 环形 缓冲 数组 区 ， 接 收 到 的 数据 被 复制 到 
其 中 。 
> ”顺序 化 是 至 关 重 要 的 。 这 样 一 来 ， 当 需要 填补 数据 时 ， 将 数据 按 顺 序 高 效 
加 载 到 缓存 中 即 可 。 
> ”避免 了 虚假 的 缓存 线 共享 。 
它们 开始 分 配 内 存 以 创建 环形 缓冲 区 ， 其 中 可 拥有 上 百 万 条 目 ， 这 些 条 目 在 内 存 组 
冲 区 工作 时 复 用 内 存 空间 。 如 此 一 来 ， 它 们 不 必 担 心 GC 和 压缩 。 
对 这 些 缓冲 区 周围 的 数据 进行 排序 以 利用 缓存 线 是 一 个 非常 重要 的 方面 ，LMAX 使 
用 填充 来 确保 缓存 线 的 不 共享 以 避免 争 用 。 


4.2.2 ”环形 缓冲 区 一 一 粉碎 器 的 心脏 


环形 缓冲 区 是 一 个 基于 数组 的 循环 数据 结构 ， 被 用 作 缓冲 区 在 上 下 文 之 间 传 递 数据 
(从 一 个 线程 到 另 一 个 线程 )。 用 非常 简单 的 术语 来 表达 ， 它 是 拥有 指向 下 一 可 用 插 槽 的 
指针 的 数组 。 生 产 者 和 消费 者 能 够 在 不 锁定 / 争 用 的 情况 下 从 该 数据 结构 写 入 和 读 取 数据 。 
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序列 /指针 围 着 环保 持 回 绕 。 与 其 他 循环 缓冲 区 不 同 的 是 ， 这 里 缺少 一 个 结束 指针 。 此 数 
据 结构 是 高 度 可 靠 的 ， 因 为 一 旦 写 入 消息 就 不 会 被 移 除 。 它 们 留 在 那里 ， 直 到 它们 被 标 
记 为 覆盖 状态 。 在 处 理 失 败 的 情况 下 ， 重 放 非 常 容易 ， 可 参考 一 个 简单 的 消费 者 示例 : 
当 生 产 者 正在 写 消息 10 时 ， 收 到 插 模 4 处 的 消息 重 放 请 求 ， 这 种 情况 下 重播 自 插 模 4 至 
df 10 的 所 有 消息 ， 并 且 将 它们 保持 为 不 可 重 写 状态 直到 从 消费 者 获得 确认 。 

4.5 描述 了 环形 缓冲 区 的 一 般 情况 及 重要 方面 。 


GC-hit agnostic Ring Buffer Pre-allocated 
bb dé 
Smart 
traversing 
图 4.5 


谈 到 实现 情况 和 显著 特征 ， 环 形 缓冲 区 是 一 个 可 从 头 再 遍历 的 有 界 数组 ， 可 以 虚拟 
无 界 的 方式 来 建 模 。 怎 么 实现 呢 ? 它 从 1 到 10， 然 后 再 次 从 1 开始 。 这 里 使 用 了 一 个 有 
趣 的 位 掩 码 模 数 的 概念 一 一 它 在 达到 10 之 后 开始 从 1 重用 存储 器 ， 但 是 序列 号 不 从 1 重 
新 开始 。 它 们 继续 以 11、12、20、21 等 排 下 去 处 理 ， 从 而 维持 虚拟 无 界 的 概念 。 它 可 以 
使 用 模 数 来 确定 下 一 个 可 用 的 数字 , 但 与 位 掩 码 操作 相 比 仍 是 一 个 高 代价 的 操作 。 因 此 ， 
这 里 使 用 位 图 模 数 〈 带 有 环形 缓冲 区 的 大 小 ， 此 环形 缓冲 区 将 -1 用 作 序 列 号 ) 来 计算 下 
一 可 用 元 素 。 这 又 是 一 个 通过 头脑 思维 进行 效率 驱动 编程 操作 的 例证 。 这 种 方法 被 称 为 
智能 遍历 。 

请 注意 ， 环 形 缓冲 区 没有 做 新 的 事情 ， 但 其 通过 头脑 思维 发 挥 了 硬件 概念 的 优势 。 
网 卡 自从 被 创造 出 来 后 就 成 双 成 对 在 使 用 。LMAX 将 同样 的 硬件 概念 和 软件 包 的 软件 打 
包 结 合 ， 帮 助 程序 员 进行 有 效 的 编程 工作 。 

图 4.6 描述 了 粉碎 器 中 如 生产 者 和 消费 者 之 类 典型 的 移动 组 件 。 




















第 4 章 Trident 概述 和 Storm 性 能 优化 UA 












* Sequencing 
* Don't overwrite data 


in use 
* Claim strategy 


* Circuit breaker lA 






Consumer 3 


Consumer Barrier 


Producer Barrier 


Key Aspects 






Consumer 2 


Producer Barrier 













g 
* Wait strategy 


* Batching 
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1. 生产 者 (Producer) 


生产 者 基本 上 名 副 其 实 。 它 们 按 顺 序 将 数据 转 储 到 环形 缓冲 区 中 ,例如 1. 2. 3, fK 
此 类 推 。 显 然 ， 生 产 者 必须 觉察 下 一 个 可 用 的 揪 槽 ， 以 确保 没有 被 消费 者 消耗 或 读 取 过 
的 数据 不 会 被 覆盖 。 消 费 者 可 以 提供 通知 ， 帮 助 生产 者 确定 缓冲 器 中 哪里 的 序列 插 模 可 
以 进行 填充 。 例 如 ,如果 继续 将 数据 一 直 放 到 插 模 5， 那么 生产 者 必须 足够 智能 以 确保 不 
会 覆盖 数据 。 在 这 里 声明 策略 发 挥 了 作用 。 这 个 策略 可 以 是 单线 程 或 多 线程 的 。 单 线程 
策略 在 单个 生成 器 模型 中 绝对 胜任 。 但 是 ， 如 果 有 多 个 生产 者 ， 就 需要 部 署 一 个 多 线程 
的 声明 策略 ， 这 将 帮助 生产 者 计算 缓冲 区 上 的 下 一 个 可 用 揪 槽 。 多 线程 声明 策略 先是 比 
较 然后 交换 ， 属 于 大 开支 的 操作 。 

在 进入 批 处 理 之 前 ， 先 谈 谈 生成 器 争 用 情况 下 的 声明 策略 和 写 操作 : 


口 


口 
口 


口 


在 多 生产 者 环境 中 ， 有 一 个 CAS (内容 寻 址 存储 ) ， 而 不 是 用 于 保护 计数 器 的 
基本 指针 。 

在 竞赛 条 件 下 ， 可 以 竞争 并 使 用 CAS 来 找 下 一 个 可 用 的 插 覃 。 

当 生 产 者 回收 环形 缓冲 区 中 的 插 模 时 ， 以 下 面 的 两 步 将 数据 复制 到 一 个 预 分 配 
的 元 素 中 : 





> ”获取 序列 号 并 复制 数据 。 
> ”将 其 显 式 提交 给 生产 者 屏障 ， 从 而 使 数据 可 见 。 


生产 者 可 以 与 消费 者 核实 它们 在 哪里 工作 ， 以 确保 不 会 覆盖 仍 在 使 用 中 的 环形 
缓冲 区 插 槽 。 
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批 处 理 效应 是 生产 者 所 使 用 的 另 一 个 功能 ， 对 延迟 有 效 。 这 里 ， 生 产 者 知道 消费 者 
正在 工作 的 播 槽 。 假 设 消费 者 正在 使 用 插 槽 9 中 的 数据 ， 而 数据 最 多 可 到 插 槽 4。 生产 者 
可 以 确定 地 离开 ， 待 环形 缓冲 器 中 该 插 槽 为 空 时 ， 再 以 数据 串 的 形式 写 入 数据 ， 直 到 插 
槽 9 或 相应 的 点 为 止 。 

需要 在 生产 者 内 部 构建 超时 或 断路 器 ， 以 便 在 系统 中 开始 建立 延迟 的 情况 下 ， 它 们 
可 以 覆盖 和 打破 循环 。 

2. 消费 者 (Consumer) 

基本 上 消费 者 是 从 环形 缓冲 区 里 读 取 数 据 的 组 件 。 假 设 数据 已 经 被 生产 者 放 入 插 模 
1、2、3、4 和 5 中 , 并 且 在 系统 中 有 两 个 消费 者 (C1 和 C2) 位 于 单个 消费 者 屏障 (CB1) 
之 后 。 它 们 可 以 完全 彼此 独立 地 操作 ， 直 到 命中 了 生产 者 填充 的 最 后 一 个 插 棍 。 这 里 还 
有 第 3 个 消费 者 (C3) 位 于 消费 者 屏障 2 (CB2) 后 面 ， 此 处 CB2 完全 依赖 于 CB1。 这 
个 消费 者 实际 上 不 能 访问 任何 插 槽 ， 直 到 Cl 和 C2 完成 它 ， 如 此 一 来 就 通过 使 用 判断 性 
的 消费 者 屏障 建立 起 时 隙 间 的 相关 性 。 

批 处 理 在 这 里 也 起 着 非常 重要 的 作用 。 如 果 C1 在 插 槽 1 上 工作 并 且 需 要 很 长 时 间 ， 
则 生成 器 开始 将 元 素 置 于 插 槽 6。 当 C2 用 插 槽 2、3 和 4 完成 时 ， 可 以 继续 运行 并 方便 
地 从 插 槽 6 以 上 开始 读 取 元 素 。 这 样 就 实现 了 批 处 理 中 的 智能 化 感知 和 行动 。 

现 已 有 单一 数据 结构 的 所 有 组 件 ， 智 能 批 处 理 的 时 隙 同步 对 生产 者 和 消费 者 都 有 影 
响 ， 且 以 特别 不 寻常 的 方式 降低 了 延 时 。 随 着 负载 增加 ， 其 执行 表现 更 好 ， 并 且 在 处 理 
具有 浪 涌 负 载 特 征 的 队列 时 也 没有 出 现 呈 了 形 的 性 能 突变 。Storm 内 部 将 这 个 智能 化 框架 
用 于 工作 者 之 间 的 数据 传输 和 通信 。 








4.3 ”Storm 的 节点 间 通 信 


一 开始 Storm 以 ZeroMQ 作为 通信 通道 来 进行 节点 间 通 信 。 在 0.9 版 本 的 Storm 中 ， 
它 被 Netty 尝试 性 替换 ,在 0.9.2 版 本 中 ，Netty 完全 将 ZeroMQ 取而代之 。 在 本 节 中 会 谈 
到 ZeroMQ 和 Netty， 可 以 从 中 了 解 到 一 些 非常 重要 的 信息 ， 其 中 包括 二 者 间 的 不 同 ， 以 
及 它们 在 同类 技术 中 被 Storm 实施 者 选中 的 缘由 。 

图 4.7 清楚 地 描述 了 不 同 组 件 如 何 使 用 LMAX, ZeroMQ BK Netty 来 相互 通信 ， 无 论 
它们 是 否 基于 同一 个 节点 同一 个 工作 线程 来 执行 。 


4.3.1 
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Storm Topology 








图 4.7 


ZeroMQ 


ZeroMQ 不 属于 像 AMQP、Rabbit MQ 那样 完全 边缘 的 消息 系统 。 它 是 一 套 可 以 扩展 
的 文件 库 ， 可 用 于 构建 真正 绩效 型 的 消息 系统 ， 适 应 精益 、 严 苛 的 情况 需求 。ZeroMQ 不 
是 一 个 全 面 型 的 框架 ， 它 只 是 一 个 可 扩展 的 工具 包 一 一 一 个 实现 功能 不 错 的 异步 消息 库 。 
由 于 没有 在 各 个 层面 上 向 框架 过 渡 带 来 额外 负担 的 拖累 ， 它 保持 了 高 性 能 。 该 库 具 有 实 
现 高 效 的 快速 消息 传递 解决 方案 所 有 必要 的 组 件 ， 并 可 通过 各 种 适配器 与 大 量 编程 组 件 
集成 。ZeroMQ 是 一 个 轻 量 级 、 异 步 和 超 快 的 消息 工具 包 ， 可 供 开发 人 员 制 作 高 性 能 解决 





方案 。 


ZeroMQ 以 C++ 来 实现 , 因此 不 会 像 基于 JVM 的 应 用 程序 那样 遇 到 性 能 和 GC 问题 。 


这 是 
的 选择 : 


ocooooo 


有 有 一 些 关键 因素 使 这 个 库 成 为 在 同一 节点 或 不 同 节点 上 的 不 同 工 作 者 之 间 通 信 








它 是 一 个 轻 量 级 的 异步 套 接 字库 ， 可 以 制作 为 一 个 高 性 能 并 发 框架 。 
它 比 TCP 快 ， 是 集群 设置 中 节点 间 通 信 的 理想 选择 。 

它 不 是 一 个 网 络 协议 ， 但 适应 诸如 IPC、TCP、 组 播 等 各 种 各 样 的 协议 。 
异步 风格 有 助 于 为 多 核 消 息 传输 应 用 程序 构建 可 扩展 的 IO 模型 。 
它 有 肩 出 、 发 布 -订阅 、 请 求 -回复 、 管 道 等 各 种 内 置 的 消息 模式 。 
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4.3.2 Storm 的 ZeroMQ 配置 




















Storm 中 Zero 的 应 用 配置 非常 简单 ， 可 参考 如 下 在 storm.yaml 文件 里 的 标记 : 


//Local mode is to use ZeroMQ as a message system, if set to false, 
using the Java message system. The default is false 
storm.local.mode.zmq : false 


// Each worker process used in zeromq communication number of threads 
zmq.threads : 1 


第 一 个 标记 storm.local.mode.zmq 控制 是 否 必须 使 用 ZeroMQ 或 Netty。 在 最 新 版 本 中 ， 
默认 情况 下 ， 工 作者 和 节点 间 通 信使 用 Netty 处 理 ， 因 此 该 值 为 false。 

标记 zmq.threads 控制 将 为 每 个 工作 者 创建 的 线程 数 。 多 多 益 善 不 适用 于 这 里 的 情况 。 
应 该 永远 避免 生成 超过 内 核 可 以 处 理 的 线程 数 ， 否则 将 由 于 争 用 导致 一 些 循环 负载 丢失 。 
每 个 工作 者 线程 数 的 默认 值 为 1。 





4.3.3 Netty 


前 面 描述 ZeroMQ 的 部 分 清楚 地 表明 ZeroMQ 曾 是 Storm 的 完美 选择 , 但 是 随 着 时 间 
的 推移 ，Storm 改进 者 已 经 意识 到 使 用 ZeroMQ 作为 传输 层 表现 出 的 问题 ， 作 为 一 个 原生 
库 ， 它 遇 到 了 平台 特定 的 问题 。 在 早期 ，Storm 与 ZeroMQ 的 安装 不 是 很 容易 ， 需 要 每 次 
安装 下 载 并 且 构 建 。 另 一 重要 问题 是 Storm 与 ZeroMQ 紧密 耦合 ， 并 与 相对 较 旧 的 2.1.7 
版 本 配合 工作 。 

了 解 需求 之 后 ， 下 面 介绍 一 下 Netty. Netty 是 基于 NIO 框架 的 客户 端 -服务 器 消息 传 
递 解决 方案 ， 允 许 快速 开发 ， 并 具有 相对 简单 、 易 于 使 用 的 设计 。 它 具有 高 性 能 和 可 伸 
缩 性 ， 还 有 着 可 扩展 性 和 灵活 性 等 特性 。 

Netty 比 同类 软件 出 色 的 方面 列举 如 下 : 








口 有 具有 非 阻塞 异步 操作 的 低 延迟 运算 
口 更 高 的 吞吐 量 

口 资源 消耗 低 

口 内 存 复 制 最 小 化 

OQ ”安全 的 SSL 和 TLS 支持 


Netty 为 Storm 提供 了 可 插入 性 ， 开 发 人 员 可 以 仅 通过 storm.yaml 中 的 一 些 设置 在 
ZeroMQ 和 Netty 两 个 传输 层 选项 之 间 进 行 选择 : 
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storm.messaging.transport: "backtype.storm.messaging.netty.Context" 
storm.messaging.netty.server worker threads: 1 
storm.messaging.netty.client worker threads: 1 
storm.messaging.netty.buffer size: 5242880 
storm.messaging.netty.max retries: 100 

storm.messaging.netty.max wait ms: 1000 
storm.messaging.netty.min wait ms: 100 


配置 一 开始 就 告知 Storm 传输 层 使 用 Netty。 必 须 保持 storm.local.mode.zmq 为 false 


和 storm.messaging.transport 为 backtype.storm.messaging.netty.context。 


4.4 理解 Storm UI 


Storm UI 描述 了 Storm 集群 和 拓扑 的 一 些 非常 关键 的 方面 。 Storm 中 所 描述 的 某 些 方 
面 构成 了 优化 性 能 的 基本 规则 。 但 在 谈 及 性 能 之 前 ， 先 通过 Storm UI 中 的 系列 功能 展示 
及 类 似 描述 来 熟悉 Storm UI 及 其 参数 。 


4.4.1 Storm Ul 登录 页 面 


Storm UI 的 登录 页 面 首先 介绍 了 集群 摘要 (Cluster Summary)， 如 图 4.8 所 示 。 





集群 摘要 中 可 用 列 的 简要 说 明 如 下 。 

O 版 本 CVesion) : 顾名思义 ， 这 里 显示 UI 节点 上 的 Storm 版 本 。 集 群 的 先决 条 
件 之 一 是 在 所 有 节点 上 Storm 的 版 本 应 该 相同 。 因 此 ， 这 里 清楚 地 表示 集群 中 
Storm 的 版 本 。 

OQ Nimbus 正常 运行 时 间 (Nimbus uptime) : 这 表示 Nimbus 实例 已 运行 的 持续 时 
间 ( 以 天 、 小 时 、 分 钟 和 秒 为 单位 ) 。Nimbus 是 协调 器 守护 进程 ， 负 责 向 集群 
提交 拓扑 基本 操作 ， 其 正常 运行 时 间 表 示 和 集群 正常 运行 时 间 。 但 是 在 某 些 情况 
下 ,此 值 可 能 不 代表 集群 正常 运行 时 间 。 例如 Nimbus 在 拓扑 提交 之 后 的 某 个 时 
间 点 重新 启动 的 情况 。 
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O = (Supervisors) : 这 是 Storm 集群 中 有 主管 进程 启动 并 运行 的 节点 数 。 

O 总 播 槽 数 (Total slots) : 这 是 集群 中 的 工作 者 进程 数 。 这 来 自 对 于 每 个 主管 节 
点 在 storm.yaml 中 所 定义 的 插 槽 数量 。 插 槽 数量 通常 和 主管 机 器 中 的 核心 数量 
保持 一 致 : 


supervisor.slots.ports: 
= 06700 
— 6701! 
= 67102 
mons 


Q FAHY (Used slots) : 这 是 由 群集 上 正在 运行 拓扑 中 Bolt 和 Spout 所 使 用 的 
工作 者 进程 数 。 

口 “ 空 闲 插 槽 (Free slots) : 这 是 群集 中 空闲 可 用 的 工作 线程 数 。 这 是 一 个 简单 数 
学 计算 结果 。 这 个 数字 实际 上 可 帮助 用 户 预 估 容 量 有 多 少 ， 以 及 HA (高 可 用 性 
的 缩写 ) 能 力 有 多 少 。 举 一 个 例子 : 有 一 个 四 节点 Storm 集群 ， 每 个 节点 有 4 
个 插 槽 ， 两 个 拓扑 在 这 个 集群 上 执行 ， 每 个 节点 消耗 4 个 插 槽 。 因 此 总 消耗 插 
槽 数 为 8， 可 用 但 未 使 用 揪 槽 数 为 8。 现在 此 集群 中 具有 以 下 能 力 : 
> “可 以 启动 一 个 或 多 个 拓扑 ， 累 积 消耗 所 有 8 个 插 槽 ， 集 群 将 以 100% 的 占用 


、 一 /一 




















> ”可 以 把 这 8 个 插 槽 作为 集群 的 HA 能 力 ， 两 个 拓扑 可 以 不 受 影响 地 运行 ， 
即使 两 个 节点 崩溃 ， 也 可 以 挂 起 并 在 剩余 的 8 个 揪 槽 中 跨越 幸存 节点 重新 
恢复 。 
Q 任务 (Tasks) : 此 参数 表示 集群 中 所 有 活动 拓扑 里 正在 运行 任务 的 总 和 。 它 基 
本 上 是 所 有 Bolt 和 Spout 并 行 运行 数量 的 总 和 。 
O 执行 者 (Executors) : 这 表示 驻 留 在 工作 进程 中 的 线程 总 数 。 
mihi (Topology Summary) 部 分 如 图 4.9 所 示 。 





Topology summary 


Namo a ld Status Uptime Num workers Num executors Num tasks 


ACTIVE 1m 48 8 的 1% 





拓扑 摘要 中 可 用 列 的 简要 说 明 如 下 。 
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O 名 称 Name) : 这 是 在 将 拓扑 提交 给 Nimbus 时 分 配 的 拓扑 名 称 。 这 是 拓扑 的 
用 户 定义 标识 符 。 
O “序号 (Id) : 这 是 在 启动 或 提交 到 群集 以 供 执行 时 由 Storm 分 配给 拓扑 的 标识 符 。 
O ”状态 (Status) : 这 里 描述 拓扑 的 各 种 状态 及 可 能 状态 。 
> 激活 (ACTIVE) : 实时 正在 运行 的 拓扑 。 
> ”停止 活动 (INACTIVE) : 处 于 暂停 状态 并 且 实 际 上 不 处 理 任何 实况 流量 的 
活动 拓扑 。 
> iE (KILLED) : 被 终止 的 拓扑 ， 并 且 它 正在 处 理 在 发 出 终止 命令 时 在 执 
行 流 中 的 元 组 。 它 正在 关闭 ， 并 将 在 退出 后 从 UI 中 删除 。 
> ”重新 平衡 (REBALANCING) : 此 状态 表示 拓扑 处 于 保持 状态 并 且 不 消耗 
任何 数据 。 相 反 ， 它 正在 整个 集群 中 重新 平衡 。 这 发 生 在 修改 正在 运行 拓 
扑 的 工作 程序 和 执行 程序 数量 的 情况 下 ， 或 者 在 拓扑 工作 程序 正在 运行 的 
其 中 一 个 主管 进程 被 杀 死 时 。 因 此 ， 拓 扑 结构 重新 平衡 其 在 活动 管理 器 上 
的 其 他 工作 者 进程 。 
Q 正常 运行 时 间 (Uptime) : 这 描述 了 自 拓扑 提交 以 来 经 过 的 时 间 。 
O 工作 者 数 (Num workers) : 这 表示 分 配给 拓扑 的 工作 者 数量 。 此 值 在 拓扑 配置 
里 定义 。 
Q 执行 者 数 (Num executors) : 这 表示 拓扑 使 用 的 执行 者 数量 。 
口 任务 数量 (Num tasks) : 这 是 拓扑 中 执行 的 任务 数 。 
主管 摘要 (Supervisor Summary) 部 分 如 图 4.10 所 示 。 








Bupervisor summary 


M 


-— 





图 4.10 


主管 摘要 中 可 用 列 的 简要 说 明 如 下 。 

口 序号 Od): 这 是 Storm 分 配给 加 入 集群 的 每 个 主管 节点 的 唯一 标识 符 。 

O 主机 Host) : 这 是 主管 进程 正在 其 上 执行 的 机 器 主机 名 。 

Q “正常 运行 时 间 (Uptime) : 这 是 Storm 主管 作为 此 集群 一 部 分 运行 的 持续 时 间 。 


。78 。 
口 
口 


4.4.2 
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插 槽 数 〈Slots) : 插 横 实 际 上 表示 在 启动 管理 器 进程 时 在 主管 节点 上 启动 的 工 
作者 数 。 一 般 来 说 ， 每 个 核心 上 保持 为 一 个 工作 者 。 
已 用 插 柳 (Used slots) : 这 是 执行 某 些 拓扑 组 件 的 工作 者 数 。 


拓扑 首页 





在 单 击 登录 页 面 中 的 拓扑 〈topology) 名 称 后 到 达 拓 扑 首 页 。 首 页 的 第 一 部 分 主要 是 
关于 拓扑 操作 ， 如 图 4.11 所 示 。 








Topology actions 


Activate Deactivate Rebalance Kill 





图 4.11 


这 部 分 解释 了 可 以 使 用 拓扑 上 Storm UI 实现 的 各 种 操作 。 


口 
口 


Qa 


Wo (Activate) : 用 于 重新 激活 已 非 激活 状态 的 拓扑 。 

停止 活动 (Deactivate) : 此 操作 将 拓扑 置 成 挂 起 状态 。 它 仍 活着 ， 但 不 处 理 或 
执行 任何 元 组 。 

重新 平衡 CRebalance) : 此 操作 用 于 增加 或 减少 分 配给 活动 状态 下 或 运行 中 拓 
扑 的 工作 者 和 执行 者 的 数量 。 

终止 Kil) : 此 操作 用 于 停止 终结 拓扑 。Storm 保障 处 理 过 程 ， 所 以 终止 操作 
会 立即 生效 和 从 Storm 中 删除 拓扑 ， 而 是 以 分 阶段 的 方式 发 生 ， 可 能 需要 一 
段 时 间 才 能 执行 完毕 。 首 先 拓扑 停止 将 数据 读 入 Spout。 它 继续 处 理 和 释放 在 命 
令 发 出 时 执行 的 内 容 。 一 旦 所 有 元 组 已 成 功 执行 并 在 拓扑 的 DAG PRES, 拓扑 
将 终止 并 从 Storm 中 被 删除 。 


Storm UI 里 拓扑 首页 的 第 二 部 分 描述 了 拓扑 统计 (Topology stats) 的 情况 ， 如 图 4.12 


所 示 。 





10m 0s 


3h Om Os 


1d 0h Om Os 


opology stats 


Window 


Transterrod Complete latency (ms) Acked Failed 


0.000 31320 0 





0.000 31320 





All time 651580 651580 9,000 31320 





图 4.12 


拓 
a 


口 


口 
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扑 统计 中 可 用 列 的 简要 说 明 如 下 。 

窗口 (Window) : 这 个 有 意思 的 参数 表示 其 余 列 中 统计 信息 的 时 间 范 围 。 可 以 
有 击 并 选择 适合 它们 的 范围 。 
CAGE (Emitted) : 这 个 统计 信息 捕获 拓扑 中 发 送 的 元 组 的 总 数 ， 四 舍 五 入 到 
十 的 数量 级 。 
已 转移 (Transferred) : 这 里 表示 发 送 并 派 到 一 个 或 多 个 Bolt 的 元 组 数 ， 同 样 
WABI BOER 
FERIER (Complete latency (ms) ) : 如 果 acking 关闭 ， 这 里 的 值 将 为 0。 但 
如 果 要 显 式 确认 元 组 ， 这 会 是 一 个 非常 有 意思 的 参数 ， 因 为 它 呈 现 事件 或 元 组 
通过 拓扑 的 DAG 完成 其 执行 所 耗费 的 平均 时 间 。 
已 确认 (Acked) : 描述 了 成 功 执行 并 且 回 到 Spout 的 元 组 总 数 。 在 确认 acking 
功能 关闭 的 情况 下 ， 这 个 值 为 0。 
失败 (Failed) : 显示 在 完成 确认 之 前 执行 期 间 失 败 或 超时 的 元 组 总 数 。 在 确认 
acking 功能 关闭 的 情况 下 ， 这 个 值 为 0。Storm 将 重新 请 求 把 所 有 失败 的 元 组 送 
回 队列 ， 以 便 可 以 在 拓扑 中 重新 处 理 。 














m 








如 图 4.13 所 示 的 屏幕 截图 呈现 下 一 部 分 页 面 内 容 ， 其 中 显示 了 Spout (全 时 间 段 ) 的 
统计 信息 。 


Bpouts (All time) 


[] 


à Execulors m Transterred Complete latency (ms) Acad Filled Last error 





图 4.13 


以 下 内 容 有 助 于 理解 其 中 描述 的 各 种 参数 及 配置 。 
Q 序号 Cd) : 这 是 Storm 提供 的 拓扑 组 件 标识 符 (Spout/Bolt) 。 
O 执行 者 (Executors) : 这 里 表示 Storm 为 执行 此 组 件 (Bolt/Spout) 分 配 了 多 少 


个 执行 者 。 





O {£% (Tasks): 表示 框架 为 执行 此 组 件 而 生成 的 任务 数 (BolySpout) 。 














其 余 参 数 保持 和 先前 讨论 相同 的 意义 ， 除 了 最 后 错误 (Last error)。 最 后 错误 代表 在 


此 组 件 (Bolt/Spout) 上 发 生 的 最 后 一 个 错误 。 





如 


图 4.14 所 示 的 屏幕 截图 呈现 Bolt( 全 时 间 段 〉 统 计 信息 的 页 面 内 容 。 后 面 的 部 分 











有 助 于 理解 其 中 描述 的 各 种 参数 及 配置 。 
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[Bolts (All time) 





图 4.14 


此 处 将 省 略 与 前 面 页 面 含 义 相同 的 参数 ， 仅 关注 有 差异 性 的 相关 参数 。 
O 已 发 送 (Emitted) : 这 表示 从 Bolt 发 送 的 元 组 总 数 ， 四 舍 五 入 到 十 的 数量 级 。 
Q it (最 后 10 毫秒 ) (Capacity (last 10ms) ) : 基本 上 这 表示 组 件 (Bolt/Spout) 

的 效率 因子 ， 并 且 理 想 情况 下 应 小 于 1。 如 果 等 于 1 则 被 视 为 警报 场景 ， 并 需要 


增加 Bolt 的 并 行 度 。 在 数学 上 ， 


或 时 间 。 





它 是 由 Bolt 执行 的 元 组 数 乘 以 生存 周期 、 延 迟 


O 执行 延迟 (Execute latency (ms) ) : 这 是 元 组 通过 Bolt 的 执行 方法 完成 处 理 所 


需 的 平均 时 间 。 
Q 已 执行 (Executed) : 这 


是 由 Bolt 处 理 的 输入 元 组 的 数量 。 


进程 延迟 (Process latency (ms) ) : 这 是 一 个 非常 重要 的 参数 ， 它 是 元 组 从 到 
达 Bolt 直到 完成 通知 的 时 间 。 如 果 该 值 很 大 ， 那 么 即使 执行 延迟 较 低 ， 仍 将 导 
致 队列 整体 的 延迟 ， 这 意味 着 元 组 在 队列 中 花费 更 多 的 时 间 等 待 通过 Bolt 的 
execute() 方 法 执行 ， 应 该 考虑 添加 更 多 的 确认 者 使 得 确认 更 快 。 


现在 已 经 了 解 到 Storm UI 中 所 描述 的 基本 及 关键 方面 ， 接 下 来 显而易见 的 事情 是 优 


化 Storm 性 能 。 


为 了 能 够 优化 Storm 的 性 能 ， 理 解 什么 是 性 能 瓶颈 非常 重要 。 只 有 知道 陷阱 在 哪里 ， 


4.5 优化 Storm 性 能 








才能 成 功 避 开 它们 。 与 所 有 其 他 大 数据 框架 一 样 ，Storm 另 一 个 颇 为 值得 注意 的 方面 是 它 
没有 性 能 的 经 验 法 则 : 每 个 场景 都 是 唯一 的 ， 因 此 每 个 场景 的 性 能 优化 计划 也 是 唯一 的 。 























所 以 这 部 分 更 多 的 是 指导 性 建议 及 经 典 的 “要 和 不 要 ”提醒 。 在 用 例 的 实际 工作 中 ， 
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需要 经 过 几 轮 对 系统 的 观察 和 调整 后 ， 性 能 增强 的 效果 才能 发 挥 出 来 。 

从 根本 上 说 ，Storm 是 一 个 高 性 能 的 分 布 式 处 理 系统 。 工 作 分 配 发 挥 作 用 的 那 一 刻 ， 
它 带 来 了 自己 的 潘多拉 盒子 ， 其 可 能 是 性 能 故障 ， 例 如 同一 节点 上 不 同 进 程 之 间 的 交互 ， 
或 又 例如 需要 信道 、 数 据 源 和 接收 器 的 不 同 节点 上 不 同 进程 间 的 交互 。 在 拓扑 中 ， 可 以 
将 每 个 节点 看 作 图 中 下 一 个 节点 的 源 。 在 此 分 布 式 设置 中 ， 以 下 都 是 可 能 会 出 错 的 方面 : 

Q “接收 器 Bolt 可 能 变 慢 或 堵塞 。 例 如 ，Bolt 运行 于 容量 1 就 是 达到 100% 的 效率 ， 
因此 它 不 会 从 ZeroMQ BK Netty 通道 拾取 任何 消息 。 
OQ ”数据 源 Bolt 并 不 知道 这 个 事实 情况 ， 它 只 是 超级 有 效 地 将 越 来 越 多 的 元 组 抽 入 
队列 。 
O ”结果 是 队列 容量 被 充满 ， 造 成 数据 溢出 或 爆满 。 消息 处 理 失 败 ， 因 此 根据 Storm 
的 规矩 重 放 ， 从 而 形成 一 个 无 限 扰动 的 恶性 循环 。 

O ”此 时 建议 应 该 注意 观察 延迟 : 执行 和 进程 延迟 。 尝 试 保 持 Bolt 容量 低 于 1。 

可 以 通过 增加 并 行 性 来 实现 性 能 提升 ， 但 同时 要 认识 到 工作 者 进程 和 核心 数量 的 协 
调 ， 以 避免 言 目 增加 并 行 性 的 行为 造成 所 有 进程 和 线程 都 在 竞争 中 死亡 的 后 果 。 

所 有 程序 员 都 应 该 重点 关注 延迟 ， 所 以 熟知 系统 的 常见 延迟 非常 重要 。 以 下 显示 的 
内 容 来 自 https://gist.github.com/jboner/2841832. 

















Latency Comparison Numbers 


Ll cache reference 0.5 ns 

Branch mispredict 5 ns 

L2 cache reference "ns 

14x L1 cache 

Mutex lock/unlock 25. ns 

Main memory reference 100 ns 

20x L2 cache, 200x L1 cache 

Compress 1K bytes with Zippy 3,000 ns 3 us 
Send 1K bytes over 1 Gbps network 10,000 ns 10 us 
Read 4K randomly from SSD* 150,000 ns 150 us 
~1GB/sec SSD 

Read 1 MB sequentially from memory 250,000 ns 250 us 
Round trip within same datacenter 500,000 ns 500 us 
Read 1 MB sequentially from SSD* 1,000,000 ns 1,000 us ali 


ms ~1GB/sec SSD, 4X memory 
Disk seek 10,000,000 ns 10,000 us 10 
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ms 20x datacenter roundtrip 

Read 1 MB sequentially from disk 20,000,000 ns 20,000 us 20 

ms 80x memory, 20X SSD 

Send packet CA->Netherlands-—>CA 150,000,000 ns 150,000 us 150 ms 


Storm 集群 应 根据 用 例 的 需求 进行 构建 、 缩 放 和 大 小 调整 ， 以 下 是 需要 注意 的 事项 : 
口 输入 源 的 数量 和 种 类 。 
口 数据 到 达 速 率 ，TPS 或 每 秒 的 事务 量 。 
QO 每 个 事件 的 大 小 。 
O 组 件 Cbolt/spout) 中 哪个 是 最 有 效 的 ， 哪 个 是 最 低 效 的 。 
性 能 优化 的 基本 规则 如 下 : 
O 了 解 网 络 传输 的 情况 ， 只 有 在 实际 需要 时 才 进 行 传输 。 网 络 延 迟 影响 巨大 并 且 
通常 不 受 程序 员 控制 。 因 此 ， 在 采用 一 个 拓扑 ， 且 其 中 所 有 Bolt 和 Spout 只 分 
布 在 单个 节点 上 时 ， 与 它们 被 分 散在 集群 的 x 节点 上 的 情况 相 比 ， 前 者 将 有 更 
好 的 性 能 ， 因 为 它 节 省 了 网 络 跃 点 的 耗费 。 而 后 者 在 出 错 的 情况 下 具有 更 高 的 
生存 机 会 ， 因 为 信息 是 在 整个 集群 中 而 不 仅仅 在 单个 节点 上 传播 。 
口 确认 者 的 数量 应 该 保持 等 于 主管 的 数量 。 
O ”对 于 CPU 密集 型 拓扑 ， 执 行 器 的 数量 通常 应 保持 为 每 核 1 个 。 
假设 有 10 个 主管 ,每 个 主管 有 16 个 核心 ,那么 有 多 少 并 行 单 位 ? 答案 是 10x16 = 160。 
每 个 节点 1 个 确认 者 = 10 个 确认 者 进程 的 规则 
剩余 并 联 单元 = 160-10 = 150 
将 较 多 并 行 单元 分 配给 较 慢 的 任务 ， 较 少 并 行 单元 分 配给 较 快 的 任务 。 
发 送 -> 计算 -> 持久 化 [拓扑 中 的 三 个 组 件 ] 
其 中 ， 持 久 化 是 最 慢 的 任务 (OI/O 约束 )， 可 以 有 如 下 的 并 行 度 分 配 : 
发 送 [并 行 度 10] -> 计算 [并 行 度 50] -> 持久 化 [并 行 度 90] 
OQ wu ET SII 时 增加 并 行 性 。 
口 通过 在 配置 中 调整 以 下 参数 ， 为 未 确认 元 组 的 数量 预 留 裕 量 : 


topology.max.spout.pending 


此 参数 的 默认 值 为 unset， 表 示 没 有 限制 ， 但 是 基于 用 例 时 需要 限制 ， 以 便当 未 确认 
消息 的 数量 等 于 所 设 定 的 参数 值 的 条 件 达到 时 ， 可 以 停止 读 取 更 多 数据 以 让 处 理 赶 上 并 
确认 所 有 消息 ， 然 后 继续 进行 。 此 值 设 置 应 该 考虑 : 

> ”不 要 小 到 让 拓扑 总 在 等 待 空闲 。 
> ”不 要 太 大 ， 以 至 于 拓扑 在 处 理 和 确认 消息 之 间 被 消息 淹没 。 
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适宜 的 建议 是 , 从 1000 开始 , 然后 对 其 调整 , 以 找 出 最 适合 你 用 例 的 取 值 。 在 Trident 
的 情况 下 ， 从 15 一 20 的 较 小 值 开始 调整 。 
口 ” 超 时 应 该 设置 为 多 少 ? 不 要 过 高 ， 亦 不 要 过 低 。 观 察 拓 扑 中 的 完整 延迟 ， 然 后 
调整 参数 。 


Topology.message.timeout.secs 


口 机 器 性 能 配置 。 
> Nimbus: 轻 量 级 和 中 等 四 核 节点 就 足够 了 。 
> EF: 高 端 节点 ， 更 多 的 内 存 和 更 多 的 内 核 (取决 于 用 例 的 性 质 ， 是 否 是 
CPU 密集 型 、 内 存 密集 型 ， 或 可 能 两 者 兼 而 有 之 ) 。 
Storm 集群 里 默默 无 闻 的 协调 者 是 ZooKeeper。 这 是 所 有 控制 和 协调 的 核心 ， 这 里 的 
所 有 操作 通常 是 I/O 绑 定 的 磁盘 操作 。 因 此 , 以 下 的 建议 有 助 于 保持 ZooKeeper 和 Storm 
集群 的 高 效 工作 : 
Q ”使 用 ZooKeeper 仲裁 〈 至 少 有 一 处 三 节点 设置 ) 。 
o ”使 用 专用 硬件 。 
O ”使 用 专用 固态 硬盘 SSD 提高 性 能 。 
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本 章 重点 在 于 让 读者 熟悉 Trident 框架 ,以 其 作为 Storm 微小 批 处 理 抽象 的 延伸 。 我 
们 已 经 看 到 了 Trident 的 各 种 关键 概念 和 操作 ， 然 后 还 探索 了 Storm 内 部 与 LMAX, 
ZeroMQ 和 Netty 的 联系 。 最 后 总 结 了 Storm 性 能 优化 方面 的 内 容 。 

下 一 章 将 重点 介绍 基于 AWS 的 流 框架 Kinesis， 让 读者 可 以 着 手 使 用 Kinesis 服务 在 
亚马逊 云 上 处 理 流 数据 。 
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最 优化 利用 资源 一 直 是 非常 关键 的 业务 目标 之 一 。 对 于 基础 设施 成 本 几乎 占 整个 IT 
预算 50% 的 公司 来 说 , 这 一 点 尤为 重要 。 云 计算 是 一 个 正在 改变 企业 IT 面貌 的 关键 概念 ， 
不 仅 有 助 于 实现 一 致 性 和 规模 经 济 ， 还 提供 诸如 升级 、 维 护 、 故 障 转移 、 负 载 均衡 等 企 
业 级 功能 。 当 然 ， 所 有 这 些 功能 都 是 有 代价 的 ， 不 过 可 以 按 需 支付 所 使 用 的 资源 。 

没有 经 过 很 多 时 间 企 业 就 都 认识 到 云 计 算 带 来 的 好 处 ， 它 们 开始 利用 laas 或 PaaS 
来 适 配 /实施 /托管 其 服务 和 产品 CaaS 是 基础 设施 即 服务 的 缩写 ， 介 绍 可 参见 https://en. 
wikipedia.org/wiki/Cloud_computing/Infrastructure_as_a service; PaaS 是 平台 即 服务 的 缩 
写 ， 介 绍 可 参见 https://en.wikipedia.org/wiki/Platform as a service). IaaS / PaaS 的 好 处 显 
而 易 见 ， 很 快 它 被 扩展 到 基于 云 的 流 分 析 。 基 于 云 的 流 分 析 是 云 中 的 一 项 服务 ， 有 助 于 
开发 /部 署 低 成 本 分 析 解 决 方案 ， 从 诸如 设备 、 传 感 器 、 基 础 设施 、 应 用 程序 等 各 种 数据 
源 中 接收 的 多 种 数据 馈送 中 实时 发 现 洞察 性 观点 。 需 求 目 标 是 要 能 扩展 到 任何 数据 量 的 
数据 ， 这 些 数据 还 具有 高 或 可 定制 的 吞吐 量 、 低 延迟 和 有 保证 的 弹性 、 在 几 分 钟 内 轻松 
安装 和 配置 的 特点 。 

2013 年 底 ， 亚 马 逊 推出 了 Kinesis， 作 为 一 种 完全 托管 的 基于 云 的 服务 (PaaS)， 它 
可 以 对 来 自 于 分 布 式 数据 流 的 实时 数据 进行 基于 云 的 流 式 分 析 ， 还 允许 开发 人 员 编写 自 
定义 应 用 程序 ， 以 便 对 实时 接收 的 数据 馈送 执行 近 实 时 分 析 。 

为 帮助 读者 了 解 Kinesis 的 整体 架构 和 各 种 组 件 ， 本 章 将 涵盖 以 下 几 点 : 

O Kinesis 架构 概述 

口 创建 Kinesis 流 服务 





5] Kinesis 架构 概述 


在 本 节 中 将 讨论 Kinesis 的 整体 架构 和 各 种 组 件 。 本 节 将 帮助 读者 了 解 Amazon 
Kinesis 的 术语 和 各 种 组 件 。 
5.1.1 Amazon Kinesis 的 优势 和 用 例 


Amazon Kinesis 是 亚马逊 在 云 上 提供 的 服务 ， 允 许 开 发 人 员 使 用 来 自 诸如 流 式 新 闻 
源 、 财 务 数据 、 社 交 媒 体 应 用 、 日 志 或 传感器 等 多 种 数据 源 的 数据 ， 并 且 编 写 响 应 这 些 
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实时 数据 馈送 的 应 用 程序 。 从 Kinesis 收 到 的 数据 可 以 进一步 消耗 、 转 换 并 最 终 持久 存储 





于 如 Amazon S3、Amazon DynamoDB、Amazon Redshift 或 任何 其 他 NoSQL 数据 库 里 ， 














存储 时 可 以 其 原始 形式 或 根据 预定 的 业务 规则 过 滤 。 

Kinesis 可 以 与 实时 仪表 板 和 商业 智能 软件 集成 ， 从 而 在 响应 输入 实时 数据 流 轨迹 的 
基础 上 支持 警报 和 决策 协议 的 脚本 化 实现 。 

Amazon Kinesis 是 一 种 高 可 用 性 服务 , 可 以 在 AWS 云 计算 疆域 内 的 可 用 区 域 间 复 制 
数据 。 Amazon Kinesis 作为 “托管 服务 ”(https://en.wikipedia.org/wiki/Managed_services) 


来 提供 ， 








可 处 理 用 于 负载 平衡 、 故 障 转移 、 自 动 扩展 和 编排 的 实时 数据 流 。 


Amazon Kinesis 无 疑 被 认为 实时 或 接近 实时 数据 处 理 领 域 的 颠覆 性 创新 技术 
Chttps://en.wikipedia.org/wiki/Disruptive innovation)， 它 提供 了 如 下 好 处 。 


口 


口 


易于 使 用 : 作为 托管 服务 应 用 时 , Kinesis 流 只 需 几 次 点 击 即 可 成 功 创建 。 在 AWS 
SDK 的 帮助 下 可 以 开发 更 多 的 应 用 程序 来 随时 消耗 和 处 理 数据 。 
并 行 处 理 : 通常 出 于 不 同 目的 处 理 数据 馈送 ， 例 如 在 网 络 监视 用 例 下 ， 可 在 实 
时 仪表 板 上 显示 处 理 后 的 网 络 日 志 以 用 于 识别 任何 安全 漏洞 /异常 ， 同 时 它 还 将 
数据 存储 在 数据 库 中 以 备 深度 分 析 。Kinesis 流 可 同时 被 多 个 不 同 目的 或 待 解决 
问题 的 应 用 所 使 用 。 
可 扩展 : Kinesis 流 本 质 上 是 弹性 的 ， 可 以 从 每 秒 MB 扩展 到 每 秒 GB， 从 每 秒 
数 千 条 扩展 到 数 百 万 条 消息 。 基 于 数据 量 ， 可 以 在 任何 时 间 点 动态 地 调整 吞吐 
量 ， 而 不 干扰 现 有 的 应 用 / 流 。 此 外 ， 这 些 流 还 可 以 被 重新 创建 。 
成 本 效益 : 设置 Kinesis 流 不 涉及 构建 或 前 期 成 本 。 只 需 支 付 使 用 时 的 费用 ,在 
1 MB / 秒 的 数据 获取 速率 和 2 MB / 秒 的 数据 消耗 速率 情况 下 ， 其 每 小 时 的 花费 
rat 美元 。 
错 和 高 可 用 性 : Amazon Kinesis 保留 24 小 时 的 数据 备份 ， 并 在 AWS 区 域 的 
CFAE ENIES, 防止 在 应 用 程序 或 基础 架构 发 生 故 障 的 情况 下 数 
HER. 




















除了 已 列 出 的 好 处 ，Kinesis 还 可 用 于 需要 在 几 秒 或 几 毫 秒 内 消耗 和 处 理 传 入 数据 馈 
送 的 各 种 业务 和 基础 设施 用 例 。 这 里 有 Kinesis 相关 的 几 个 突出 垂直 用 例 。 


a 


电信 : 分 析 呼 叫 数据 记录 (CDR) 是 非常 重要 和 最 值得 讨论 的 业务 用 例 之 一 。 
电信 公司 分 析 CDR 以 获得 可 行 的 洞察 ， 这 不 仅 优化 了 总 体 成 本 ， 而 且 同 时 能 引 
入 新 的 业务 线 /趋势 ， 从 而 提高 了 客户 满意 度 。 

CDR 的 关键 挑战 是 数据 量 和 速度 ， 其 每 天 甚至 每 小 时 都 在 变化 ， 并 需要 同时 使 
用 CDR 解决 多 个 业务 问题 。Kinesis 无 疑 是 一 个 最 佳 解决 方案 , 因为 它 为 此 类 主 
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要 挑战 提供 了 一 个 优雅 的 解决 方案 。 

O ”医疗 保健 : Kinesis 在 医疗 保健 领域 的 突出 和 最 适合 的 使 用 案例 之 一 是 分 析 隐 私 
保护 的 医疗 设备 数据 流 ， 以 检测 疾病 的 早期 征兆 ， 同 时 识别 多 个 患者 之 间 的 相 
关 性 并 评估 治疗 的 功效 。 

口 汽车: 汽车 业 是 一 个 不 断 增长 的 行业 ， 在 过 去 几 年 我 们 已 经 看 到 了 其 中 的 很 多 
创新 。 不 少 传感器 嵌入 车 辆 中 ， 其 不 断 地 收集 例如 距离 、 速 度 、 地 理 空间 /GPS 
位 置 、 驾 驶 模式 、 停 车 风格 等 各 种 信息 。 所 有 这 些 信 息 可 以 实时 推送 到 Kinesis 
流 ， 接 着 消费 者 应 用 程序 可 以 处 理 这 些 信息 ， 并 且 能 提供 一 些 真实 和 可 操作 的 
见解 ， 例 如 评估 驾驶 员 的 潜在 事故 风险 或 提供 给 保险 公司 的 警报 ， 并 可 以 进 一 
步 生成 个 性 化 保险 定价 。 

前 面 的 用 例 只 是 Kinesis 用 于 存储 /处 理 实时 或 流 数据 馈送 的 几 个 示范 。 基 于 行业 及 其 

需求 会 有 更 多 的 用 例 。 

下 面 继续 讨论 Kinesis 的 架构 和 各 个 组 件 。 


5.1.2 ”高 级 体系 结构 


基于 Kinesis 的 实时 / 流 式 数据 处 理应 用 程序 的 全 面部 署 会 涉及 许多 彼此 密切 交互 的 
组 件 。 图 5.1 说 明了 此 类 部 署 的 高 级 体系 结构 ， 其 中 还 定义 了 每 个 组 件 所 起 的 作用 。 
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5.1 显示 了 基于 Kinesis 的 实时 / 流 数据 处 理应 用 程序 的 体系 结构 。 在 高 级 层次 ， 生 
产 者 从 数据 源 获取 /消耗 数据 ， 并 持续 将 数据 推送 到 Amazon Kinesis 流 。 另 一 端的 消费 者 
持续 使 用 Kinesis 流 中 的 数据 并 对 其 进行 进一步 处 理 ， 并 且 既 可 以 使 用 如 Amazon 
DynamoDB、Amazon Redshift. Amazon S3 或 任何 其 他 NoSQL 数据 库 的 AWS 服务 来 存 
储 结果 ， 也 可 以 推送 到 另 一 个 Kinesis 流 去 。 

将 继续 讨论 Kinesis 架构 中 每 个 组 件 的 作用 和 目的 。 


5.1.3 Kinesis 的 组 件 

















本 节 将 讨论 基于 Kinesis 应 用 程序 的 各 个 组 件 。Amazon Kinesis 提供 存储 流 式 传输 数 
据 的 能 力 ， 但 在 开发 完整 的 、 基 于 Kinesis 的 实时 数据 处 理应 用 程序 过 程 中 ， 还 有 各 种 其 
他 组 件 发 挥 着 非常 关键 的 作用 。 下 面 就 来 了 解 Kinesis 的 各 个 组 件 。 

1. 数据 源 


数据 源 是 实时 产生 数据 并 提供 实时 或 接近 实时 访问 或 消耗 数据 方式 的 应 用 ， 例 如 来 
自 各 种 传感器 或 提供 日 志 的 Web 服务 器 所 发 送 的 数据 。 
全: 生产 考 


生产 者 是 一 些 自 定义 应 用 ， 这 些 应 用 消耗 来 自 数据 源 的 数据 ， 然 后 将 数据 提交 到 
Kinesis 流 以 进行 进一步 存储 。 生 产 者 在 整体 架构 中 的 作用 是 消耗 数据 并 实施 各 种 策略 ， 
以 有 效 地 将 数据 提交 给 Kinesis 流 。 推 荐 策略 之 一 是 创建 成 批量 的 数据 ， 然 后 将 记录 提交 
到 Kinesis 流 。 生 产 者 可 选择 只 执行 最 小 限度 的 数据 转换 ， 但 应 确保 任何 处 理 都 不 应 当 降 
低 生 产 者 的 性 能 。 生 产 者 的 主要 目标 是 获取 数据 并 将 其 以 最 佳 方式 提交 到 Kinesis 流 中 。 
建议 将 生产 者 部 署 在 EC2 实例 本 身上 , 以 便 在 向 Kinesis 提交 记录 时 保持 最 佳 性 能 和 无 时 
间 延 迟 。 可 以 选择 使 用 AWS SDK 或 Kinesis Producer Library 之 类 直接 公开 的 API 来 实现 
生产 者 。 

3. 消费 者 

消费 者 应 用 程序 是 连接 和 使 用 Kinesis 流 中 数据 的 自 定义 应 用 程序 。 消 费 者 应 用 程序 
进一步 转换 或 丰富 数据 ， 并 可 将 其 存储 在 某 些 持久 化 存储 服务 /设备 中 ， 例 如 DynamoDB 

Chttps://aws.amazon.com/dynamodb/ ) Redshift ( https://aws.amazon.com/redshift/ ). S3 
Chttps://aws.amazon.com/s3/), 或 者 可 以 将 其 提交 到 EMR( 弹 性 MapReduce 的 缩写 ,https:// 
aws.amazon.com/elasticmapreduce/) 以 进一步 处 理 。 
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4. AWS SDK 


亚马逊 提供 了 软件 开发 工具 包 CSDK)， 其 中 包含 易于 使 用 的 高 级 API， 以 便 用 户 可 
以 在 现 有 应 用 程序 中 无 颖 集成 AWS 服务 。SDK 提供 了 支持 Amazon S3、Amazon EC2、 
DynamoDB、Kinesis 和 其 他 许多 AWS 服务 的 API。 除 了 API，AWS SDK 还 包括 代码 示 
例 和 文档 。Kinesis 流 的 生产 者 和 消费 者 可 以 使 用 AWS SDK 中 公开 的 亚马逊 Kinesis API 
开发 , 但 是 这 些 API 只 提供 连接 和 Kinesis 流 提 交 或 使 用 数据 的 基本 功能 。 其 他 如 批 处 理 
或 聚合 的 高 级 功能 ， 要 么 由 开发 者 自行 开发 ， 要 么 选用 诸如 Kinesis 生产 者 库 (KPL) 或 
Kinesis 客户 端 库 (KCL) 这 样 的 高 级 库 来 开发 。 
ANS 请 参阅 https://aws.amazon.com/tools/2ncl=f_dr 获取 有 关 可 用 SDK 的 详细 信 
息 ， 请 访问 http://docs.aws.amazon.convkinesis/latest/APIReference/ Welcome.html 
VARIA X EI äh Kinesis API 的 更 多 信息 。 








5. KPL 

KPL 是 通过 AWS SDK 开发 的 高 级 API， 开 发 人 员 可 以 使 用 它 来 编写 用 于 将 数据 提 
取 到 Kinesis 流 的 代码 。 亚 马 逊 KPL 简化 了 生产 者 应 用 程序 开发 ， 开 发 人 员 可 以 通过 它 
实现 对 亚马逊 Kinesis 流 的 高 乔 吐 量 写 入 , 可 以 使 用 亚马逊 CloudWatch(https:Waws.amazon 
com/cloudwatch/) 来 进一步 监控 。 除 了 连接 和 提交 数据 到 Kinesis 流 的 简化 机 制 ，KPL 还 
提供 以 下 功能 。 

口 重 试 机 制 :在 数据 包 由 于 缺乏 足够 可 用 带宽 而 被 Kinesis 流 丢弃 或 拒绝 的 情况 下 ， 
可 以 提供 自动 和 可 配置 的 重 试 机 制 。 
记录 批 处 理 : 提供 了 支持 在 单 次 请 求情 况 下 将 多 个 记录 写 入 多 个 分 片 的 API 
聚合 : 可 以 聚合 记录 并 增加 有 效 负载 大 小 ， 以 实现 可 用 吞吐 量 的 最 佳 利 用 效率 。 
解 聚合 :可 以 与 亚马逊 KCL 无 颖 集成 并 解除 批 处 理 记录 的 聚合 。 
监测 :可 将 各 种 指标 提交 给 亚马逊 CloudWatch 以 监测 生产 者 应 用 程序 的 性 能 和 
总 体 吞 吐 量 。 

必须 明确 的 是 ,不 应 将 KPL 与 AWS SDK 提供 的 亚马逊 Kinesis API 相 混 淆 。 亚 马 进 
Kinesis API 提供 了 诸如 创建 流 、 重 新 分 片 和 放置 /获取 记录 多 种 功能 , 而 KPL 仅 提 供 了 一 
个 用 于 优化 数据 摄取 的 特定 抽象 层 。 


oooo 





KSS A X KPL 的 更 多 信息 ,请 参阅 http://docs.aws.amazon.com/kinesis/ latest/ dev/ 
development-producers-with-kpl.html. 
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6. KCL 


KCL 是 通过 扩展 亚马逊 API (包括 在 AWS SDK 中 ) 来 从 Kinesis 流 消耗 数据 而 开发 
的 高 级 API， 提 供 了 各 种 设计 模式 ， 便 于 以 有 效 的 方式 访问 和 处 理 数 据 。KCL 还 包含 诸 
如 跨 多 个 实例 的 负载 平衡 、 处 理 实例 故障 、 检 查 点 处 理 的 记录 和 重新 分 片 等 各 种 功能 ， 
旨 在 有 助 于 开发 人 员 专 注 于 处 理 从 Kinesis 流 接 收 到 记录 的 真实 业务 逻辑 。KCL 完全 用 
Java 编写 ， 但 也 通过 其 MultiLangDaemon 接口 提供 了 对 其 他 编程 语言 的 支持 。 





at ”有 关 KCL 的 详细 信息 ,其 角色 以 及 对 多 种 语言 的 支持 ,请 参阅 http://docs. aws. 
^. amazon.com/kinesis/latest/dev/hildaging-consumers-with-kcl.html.. 


7. Kinesis 流 


Kinesis 流 是 整个 体系 结构 里 最 重要 的 组 成 部 分 之 一 。 要 构建 和 设计 一 个 可 扩展 和 性 
能 高 效 的 实时 消息 处 理 系 统 ， 了解 Kinesis 流 的 设计 非常 重要 。Kinesis 流 定义 了 4 个 主要 
组 件 ， 用 于 构建 和 存储 从 生产 者 接收 的 数据 : 分 片 、 数 据 记 录 、 分 区 键 和 序列 号 。 下 面 
将 介绍 Kinesis 流 中 的 所 有 这 些 组 件 。 

(OD 分 片 

分 片 (shard) 是 Amazon Kinesis 流 中 存储 唯一 标识 的 数据 记录 组 。Kinesis 流 由 多 个 
分 片 组 成 ， 每 个 分 片 提供 一 个 固定 的 容量 单位 。 每 个 记录 在 提交 到 Kinesis 流 时 存储 在 同 
一 流 的 一 个 分 片 中 。 每 个 分 片 自身 具有 处 理 读 取 和 写 入 请 求 的 能 力 ， 并 且 为 流 定 义 的 分 
片 的 最 终 数目 也 是 Amazon Kinesis 流 的 总 容量 。 需 要 小 心 定义 流 的 分 片 总 数 ， 因 为 是 按 
每 个 分 片 为 基础 来 付费 的 。 单 个 分 片 的 读 写 容 量 是 这 样 规定 的 : 

口 对 于 读 取 ， 每 个 分 片 具有 的 最 大 容量 可 支持 每 秒 最 多 5 个 事务 ， 最 大 限制 为 每 

秒 2 MB。 
口 对 于 写 入 ， 每 个 分 片 具有 的 最 大 容量 可 接受 每 秒 1000 次 写 入 ， 其 限制 为 每 秒 1 
MB (包括 分 区 键 ) 。 

下 面 举 例 说 明 ， 假 设 Amazon Kinesis 流 定 义 了 20 个 分 片 ， 因 此 ， 读 取 的 最 大 容量 将 
是 每 秒 100 个 (20 个 分 片 x5) 事务 ， 其 中 所 有 读 取 的 总 大 小 不 应 超过 每 秒 40 (20x2) MB, 
这 意味 着 每 个 事务 的 大 小 如 果 相 等 ， 则 不 应 超过 400 KB。 至 于 写 入 方面 ， 每 秒 最 多 有 
20000 (1000x200 次 写 入 ， 其 中 每 次 写 入 请 求 不 应 超过 每 秒 1 MB。 

分 片 需要 在 初始 化 Kinesis 流 本 身 时 定义 。 要 确定 所 需 分 片 的 总 数 ， 需 要 来 自 将 向 流 
读 取 或 写 入 记录 的 用 户 或 开发 人 员 的 以 下 输入 。 

OQ 每 条 记录 的 总 大 小 : 假设 每 条 记录 为 2 KB。 
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O “每 秒 所 需 的 读 取 和 写 入 总 数 : 假设 每 秒 执行 1000 次 写 入 和 读 取 。 
考虑 到 前 面 的 数字 ， 至 少 需要 两 个 分 片 。 以 下 是 计算 分 片 总 数 的 公式 : 


number of shards = max(incoming write bandwidth in KB/1000,outgoing 
read bandwidth in KB/2000) 


这 将 最 终 导致 以 下 计算 结果 : 
2 = max((1000 * 2KB) /1000, (1000 * 2KB)/2000) 


一 旦 定义 的 分 片 和 流 创建 好 ， 就 可 以 分 拆 到 多 个 客户 端 来 读 取 和 写 入 相同 的 流 。 

下 面 继续 讨论 存储 在 流 /分 片 中 的 数据 格式 。 分 片 内 数据 以 数据 记录 的 形式 存储 ， 数 
据 记录 由 分 区 键 、 序 列 号 和 实际 数据 组 成 。 接 下 来 ， 将 研究 数据 记录 的 每 个 组 件 。 

(2) 分 区 键 

分 区 键 是 用 户 定义 的 Unicode 字符 串 ， 每 个 字符 串 的 最 大 长 度 为 256 个 字符 ， 它 将 
数据 记录 映射 到 特定 的 分 片 。 每 个 分 片 仅 存储 特定 分 区 键 映射 集合 的 数据 。 分 片 和 数据 
记录 的 映射 是 通过 提供 分 区 键 作为 哈 希 函数 Kinesis 的 内 部 函数 ) 的 输入 得 到 的 ， 哈 希 
函数 映射 分 区 键 并 将 数据 与 特定 分 片 关 联 。 Amazon Kinesis 利用 MDS 散 列 函数 将 分 区 键 
(字符 串 ) 转换 为 128 位 整数 值 ， 然 后 进一步 将 数据 记录 与 分 片 关联 。 每 当 生产 者 向 
Kinesis 流 提 交 记 录 时 ， 对 分 区 键 应 用 哈 希 机 制 ， 然 后 将 数据 记录 存储 在 负责 处 理 这 些 键 
的 特定 分 片上 。 

(3) 序列 号 

序列 号 是 由 Kinesis 为 生产 者 提交 的 每 个 数据 记录 分 配 的 唯一 编号 。 相 同 分 区 键 的 序 
列 号 通常 在 一 段 时 间 内 增加 ， 这 意味 着 写 请 求 之 间 的 时 间 间 隔 越 长 ， 序 列 号 越 大 。 

在 本 节 中 ， 讨 论 了 各 种 组 件 及 其 在 Kinesis 流 的 整体 架构 中 的 作用 。 下 一 个 部 分 中 ， 
将 在 适当 示例 的 帮助 下 看 到 这 些 组 件 的 用 法 。 















































5.2 Al Kinesis AIRF 


在 本 节 中 , 将 看 到 一 些 真实 世界 的 范例 , 其 中 将 产生 流 数据 , 然后 将 数据 存储 到 Kinesis 
流 中 。 同 时 ， 还 将 看 到 Kinesis 消费 者 去 消耗 和 处 理 来 自 Kinesis 流 的 流 数据 。 
5.2.1 访问 AWS 


使 用 Kinesis 流 的 第 一 步 是 访问 Amazon Web Services (AWS)。 请 执行 以 下 步骤 以 访 
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问 AWS: 
(1) 打开 https://aws.amazon.com 并 创建 AWS 账户 ， 如 图 52 所 示 。 
€ Q fi 8 https://aws.amazon.com wg 
= Menu © amazon English ~ | MyAccount ~ — m E 
** webservices 





图 5.2 
(2) 按照 屏幕 上 显示 的 其 余 说 明 进行 操作 。 


JÍ 有 关 详 细 说 明 , 请 访问 https://www.youtube.com/watch?v=WviHsoz8yHk 参阅 
YouTube 视频 。 


注册 过 程 包括 接听 电话 呼叫 并 输入 临时 验证 PIN 号 码 。 

完成 注册 后 将 获得 访问 和 管理 AWS 账户 及 其 所 有 相关 服务 的 用 户 名 和 密码 。 

一 旦 成 功 完成 注册 过 程 ， 将 可 以 访问 AWS 及 其 包括 Kinesis 在 内 的 所 有 服务 。 

AWS 为 某 些 服务 提供 免费 套餐 ， 只 要 不 超过 限制 ， 则 不 需 缴纳 使 用 费用 。 例 如 ， 每 
月 启动 和 使 用 微型 实例 750 小 时 是 不 收取 费用 的 。 


NSS 有 关 免 费 套 餐 中 可 用 服务 的 更 多 信息 ， 请 参阅 https://aws.amazon.com/free/, 


Kinesis 不 属于 免费 套餐 的 一 部 分 ， 必 须 付 费 才 能 使 用 ， 不 过 好 在 只 需要 为 使 用 的 服 
务 支付 费用 。 可 以 以 每 小 时 0.015 美元 的 费用 来 开始 使 用 Kinesis 流 。 


KW 有 关 Kinesis 定价 的 更 多 信息 ,请 参阅 https://aws.amazon.com/kinesis/pricing/。 
假设 现在 已 可 以 访问 AWS， 继 续 前 进来 配置 开发 环境 以 使 用 Kinesis 流 。 


522 ”配置 开发 环境 


在 本 节 中 ， 将 讨论 使 用 Amazon Kinesis 必需 的 所 有 基础 库 ， 还 将 配置 需要 的 开发 环 
境 。 这 些 内 容 将 帮助 读者 进行 Kinesis 流 的 消费 者 和 生产 者 开发 。 
执行 以 下 步 又 配置 开发 环境 : 
(1) 从 http//www.oracle.com/technetwork/java/javase/install-linux-self-extracting-138783. 
html 下 载 并 安装 Oracle Java 7。 
(2) 打开 Linux 控制 台 并 执行 以 下 命令 配置 JAVA_HOME 作为 环境 变量 : 
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export JAVA_HOME = <Java 安装 目录 的 路 径 > 


(3) 人 http:/Avww.eclipse.org/downloads/packages/eclipse-ide-java-ee-developers/lunasr2 
下 载 Eclipse Luna 并 解压 缩 。 以 解压 缩 路 径 作为 ECLIPSE HOME 环境 变量 的 目录 配置 。 

(4) 打 开 Eclipse 并 按照 http://docs.aws.amazon.com/AWSToolkitEclipse/latest/ Getting 
StartedGuide/tke setup install.html 所 提供 的 AWS Toolkit for Eclipse 安装 说 明 进 行 操 作 。 

安装 AWS 工具 包 后 ， 可 能 需要 重新 启动 Eclipse 实例 。 

(5) 接 下 来 , M AWS 的 GitHub 页 面 Chttps://github.com/awslabs/amazon-kinesis-client/ 
archive/v1.6.0.zip) 下 载 KCL. 

(6) GitHub 提供 了 MVN 编译 源 文件 (https://maven.apache.org/)。 如 果 不 想 这 样 做 ， 
还 可 以 从 https://drive.google.com/file/d/0BSoLQERok6Y HdnIGb0dWLWZmMmc/view? usp= 
sharing 下 载 包含 所 有 依赖 关系 的 已 编译 二 进 制 文件 。 

C7) 打开 Eclipse 实例 ， 创 建 一 个 Java 项 目 ， 并 将 其 名 称 设置 为 RealTimeAnalytics- 
Kinesis。 

(8) 在 Eclipse MA P, 创建 一 个 名 为 chapter five 的 包 。 打开 Eclipse 项 目 属性 窗口 ， 
并 设置 KCL 的 依赖 关系 ， 如 图 5.3 所 示 。 

[5] 
type filter text. Java Build Path. 


Builders 
Java Build Path JARs and class folders on the build path: 


Its Project Explorer $3 m (99 Source | © Projects BÀ Libraries | & Order and Export 

e| 

4 Č RealTimeAnalytics-Kinesis Java Code Style E amazon tne cient BO jr wi dependencies] 
ase pt BÀ AWS SDK for Java 





E (default package) 


Java Editor BÀ JRE System Library JavaSE-1.7] Add External JARS. 


Javadoc Location 


图 5.3 


图 5.3 的 屏幕 截图 显示 了 Eclipse 项 目 及 其 需要 添加 依赖 项 ， 配 置 好 以 备 编译 和 运行 
Kinesis 流 的 代码 。 
(9) BERK, tE hutp://docs.aws.amazon.com/AWSToolkitEclipse/latest/GettingStartedGuide/ 
tke setup creds.html 提供 的 说 明 进 行 操作 并 使 用 AWS 访问 凭据 配置 Eclipse 环境 。 这 是 
直接 从 Eclipse 本 身 连接 到 AWS 所 必需 的 设置 。 
至 此 ， 完 成 了 应 有 的 配置 。 已 准备 好 使 Kinesis 流 工作 的 开发 环境 。 
下 一 节 将 创建 流 并 开发 用 于 流 服务 的 生产 者 和 消费 者 程序 。 
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5.2.3 创建 Kinesis 流 


在 本 节 将 学 习 创 建 或 托管 Kinesis 流 的 各 种 方法 。 
Kinesis 流 可 以 通过 两 种 不 同 的 方法 创建 : 一 种 是 使 用 AWS 软件 开发 工具 包 /工具 包 ， 





另 一 种 是 直接 登录 AWS， 然 后 使 用 用 户 界面 创建 Kinesis 流 。 





使 用 AWS 用 户 界面 执行 以 下 步骤 可 以 创建 Kinesis 流 : 
(1) 登录 AWS 控制 台 并 转 到 https://console.aws.amazon.comykinesis/home， 会 进入 














Kinesis 流 的 主页 。 


(2) 如 Kinesis 主页 所 示 ， 单 击 Create Stream (创建 流 ) 按钮 ， 将 看 到 如 图 5.4 所 示 


的 屏幕 截图 ， 在 此 定义 流 配置 。 


Amazon Kinesis Create Stream 


A stream is composed of multiple shards, each of which provides a fixed unit of capacity. The total capacity of the stream is the sum of the 
capacities of its shards. Each shard corresponds to 1 MB/s of write capacity and 2 MB/s of read capacity. See the Amazon Kinesis Developer 
Guide for more information on estimating number of shards needed for your stream. Note that the cost of the stream is also a function of the. 
number of shards. To learn more about the stream, see the Amazon Kinesis Pricing Page 


SS C Help me decide how many shards | need 


Number of Shards 


Values calculated based on the number of shards entered 





Read: Write: 
Total Stream Capacity: - MB/s -MB/s 


Max Transactions/second: 


* Required information 
Cancel h 


图 5.4 


图 5.4 的 截图 显示 了 Kinesis 流 配置 页 面 ， 需 要 指定 以 下 两 个 配置 。 

O 流 名 称 (Stream Name) : 这 是 用 户 定义 的 流 名 称 。 随 后 章节 创建 的 生产 者 和 消 
费 者 中 将 提 及 这 一 点 。 将 此 名 称 设置 为 StreamingService。 

O “分 片 数 (Number of Shards) : 这 是 最 重要 的 配置 ， 在 此 指定 分 片 数 。 需 要 额外 
谨慎 地 定义 分 片 数量 ， 因 为 亚马逊 将 根据 为 流 配置 的 分 片 数 收取 费用 。 还 可 以 

单 击 Help me decide how many shards I need (帮助 决定 我 需要 多 少 个 分 片 ) 链接 。 

AWS 将 提供 一 个 GUI, 在 其 中 可 以 提供 每 个 记录 大 小 、 最 大 读 / 写 等 信息 , AWS 

将 计算 并 建议 分 片 的 适当 数量 。 
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(3) 一 旦 完成 了 所 有 配置 ， 最 后 一 步 是 单 击 屏幕 底部 的 Create (HE) 按钮 ， 如 图 5.4 
所 示 。 

大 功 告 成 了 ! 流 将 在 几 秒 钟 后 创建 ， 结 果 可 以 在 Kinesis 流 的 管理 页 面 上 看 到 。 

5.5 显示 了 Kinesis 流 的 管理 页 面 , 其 中 列 出 了 所 有 活动 或 非 活动 的 Kinesis 流 。 还 
可 以 单 击 流 的 名 称 ， 并 查看 每 个 流 的 详细 分 析 / 吞 吐 量 ( 读 / 写 /延迟 )。 流 可 以 消耗 生产 者 
提供 的 数据 ， 并 将 其 提供 给 消费 者 进行 进一步 分 析 。 使 用 AWS SDK 创建 和 管理 流 所 需 
的 步骤 如 下 。 








Amazon Kinesis Stream List Kinesis Help 


Filter: C 


Stream Name ^ Number of Shards Status 


StreamingService 1 ACTIVE -—RR 





图 5.5 


执行 以 下 步骤 以 使 用 AWS 软件 开发 工具 包 创建 Kinesis 流 : 
(1) 打开 Eclipse 项 目 RealTimeAnalytics-Kinesis 并 在 chapter.five.kinesis.admin 包 中 
创建 一 个 名 为 ManageKinesisStreams.java 的 Java 类 。 
(2) 编辑 ManageKinesisStreams java 并 将 以 下 代码 添加 到 Java 类 中 : 


package chapter.five.kinesis.admin; 

import com.amazonaws.auth.AWSCredentials; 

import com.amazonaws.auth.profile.ProfileCredentialsProvider; 
import com.amazonaws.services.kinesis.AmazonKinesisClient; 
import com.amazonaws.services.kinesis.model.*; 


public class ManageKinesisStreams { 
private AmazonKinesisClient kClient; 
[** 
* Constructor which initialize the Kinesis Client for working with the 
* Kinesis streams. 
x 
public ManageKinesisStreams() ( 
//Initialize the AWSCredentials taken from the profile configured in 


the Eclipse 
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//replace "kinesisCred" with the profile configured in your Eclipse or 
leave blank to sue default. 
//Ensure that Access and Secret key are present in credentials file 
//Default location of credentials file is $USER HOME/.aws/ credentials 
AWSCredentials cred = new ProfileCredentialsProvider ("kinesisC red") 
-getCredentials(); 

System.out.println("Access Key = "+ cred.getAWSAccessKeyId()); 
System.out.println("Secret Key = " + cred.getAWSSecretKey()); 
kClient = new AmazonKinesisClient (cred) ; 


[** 
* Create a Kinesis Stream with the given name and the shards. 
* @param streamName - Name of the Stream 
* @param shards - Number of Shards for the given Stream 
m 
public void createKinesisStream(String streamName, int shards) ( 
System.out.println("Creating new Stream = '"+streamName+"', 
with Shards = "+shards); 
//Check and create stream only if does not exist. 
if (!checkStreamExists(streamName)) { 
//CreateStreamRequest for creating Kinesis Stream 
CreateStreamRequest createStreamRequest = new CreateStreamRequest (); 
createStreamRequest .setStreamName (streamName) ; 
createStreamRequest .setShardCount (shards) ; 
kClient.createStream(createStreamRequest) ; 


try { 
//Sleep for 30 seconds so that stream is initialized and created 


Thread. sleep (30000); 


} catch (InterruptedException e) { 
//No need to Print Anything 
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/**  * Checks and delete a given Kinesis Stream 

* @param streamName 

M - Name of the Stream 

ei 

public void deleteKinesisStream(String streamName) ( 


//Check and delete stream only if exists. 

if (checkStreamExists (streamName)) { 
kClient.deleteStream(streamName); 
System.out.println ("Deleted the Kinesis Stream = '" + streamName+ " 





return; 


System.out.println("Stream does not exists = " + streamName) ; 


[** 

* Utility Method which checks whether a given Kinesis Stream Exists or Not 

* @param streamName - Name of the Stream 

* @return - True in case Stream already exists else False 

e 

public boolean checkStreamExists (String streamName) ( 

try ( 

//DescribeStreamRequest for Describing and checking the 
//existence of given Kinesis Streams. 
DescribeStreamRequest desc = new DescribeStreamRequest () ; 
desc.setStreamName (streamName) ; 
DescribeStreamResult result = kClient.describeStream(desc) ; 


System. out .println ("Kinesis Stream '" «streamName- "' already exists..."); 
System.out.println("Status of '"+ streamName + "' =" 
+ result.getStreamDescription() .getStreamStatus ()); 


} catch (ResourceNotFoundException exception) { 


System.out.println("Stream '"+streamName+"' does Not exists... 
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Need to create One"); 
return false; 


) 


return true; }} 


前 面 的 代码 提供 了 用 于 创建 和 删除 流 的 实用 程序 方法 。 建 议 按照 代码 本 身 提 供 的 注 
释 来 理解 所 给 出 各 种 方法 的 功能 和 用 法 。 还 可 以 将 main() 方 法 直接 添加 到 上 述 代 码 中 ， 
并 调用 任何 创建 /删除 Kinesis 流 的 给 定 方法 。 
TÅ 分 片 修改 (也 称 为 重新 分 片 或 合并 分 片 ) 是 一 个 高 级 主题 。 请 参考 https:// 
docs.aws.amazon.com/kinesis/latest/dev/kinesis-using-sdk-java-resharding.html 
了 解 有 关 重 新 分 片 的 详细 信息 。 
接 下 来 ， 将 创建 生产 者 来 生成 和 提交 消息 到 Kinesis 流 ， 还 将 创建 消费 者 ， 用 其 消耗 
KA Kinesis 流 的 消息 。 


5.24 创建 Kinesis 流 生产 者 











在 本 节 中 ， 将 使 用 Kinesis AWS API 创建 自 定义 生产 者 ， 用 于 生成 和 提交 消息 到 
Kinesis 流 。 

1. 示例 数据 集 

有 许多 免费 数据 集 可 以 通过 网 络 获 取 ， 生 产 者 可 以 使 用 其 中 任何 之 一 。 下 面 将 使 用 
芝加哥 警察 局 研发 部 门 提供 的 一 个 数据 集 ， 即 2001 年 至 2016 年 上 报 的 犯罪 事件 〈 在 每 
个 受害 者 报告 中 存在 的 谋杀 者 数据 除外 )。 对 于 此 处 的 用 例 ， 将 考虑 2015 年 8 月 1 日 至 
2015 年 8 月 31 日 1 个 月 的 数据 一 一 可 以 从 https://data.cityofchicago.org/Public-Safety/ 
Crimes-2015/vwwp-7yr9 下 载 。 也 可 以 从 http://tinyurl.com/qgxjbej 下 载 过 滤 后 的 数据 集 。 
将 2015 年 8 月 的 芝加哥 犯罪 数据 集 存 储 在 本 地 目录 中 ， 将 该 文件 以 <$ CRIME_DATA> 
代表 。 





a 


NSS 请 参阅 http://tinyurl.com/onul54u 以 了 解 犯罪 数据 集 的 元 数据 。 


2. 用 例 
此 处 的 用 例 将 是 创建 Kinesis 生产 者 ， 将 消耗 犯罪 数据 集 并 提交 给 Kinesis 流 。 在 下 
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一 节 中 将 创建 消费 者 ， 它 们 将 使 用 Kinesis 流 中 的 数据 ， 并 根据 一 些 预 先 设 定 的 标准 生成 


4,4 





QL 在 实际 生产 场景 中 ，Kinesis 生产 者 可 以 直接 连接 和 消耗 来 自发 布 犯罪 报告 


的 现场 流 或 回馈 的 数据 ， 并 进一步 提交 到 Kinesis 流 。 


执行 以 下 步骤 以 使 用 AWS SDK 提供 的 API 创建 生产 者 : 
(1) 打开 Eclipse 项 目 RealTimeAnalytics-Kinesis 并 在 chapter five kinesis.producers 





P 添 加 一 个 名 为 AWSChicagoCrimesProducers java 的 Java 类 。 
(2) 编辑 AWSChicagoCrimesProducers.java 并 添加 以 下 代码 : 


package chapter.five.kinesis.producers; 


import java.io.*; 

import java.nio.ByteBuffer; 

import java.util.ArrayList; 

import com.amazonaws.auth.AWSCredentials; 

import com.amazonaws.auth.profile.ProfileCredentialsProvider; 
import com.amazonaws.services.kinesis.AmazonKinesisClient; 
import com.amazonaws.services.kinesis.model.*; 


public class AWSChicagoCrimesProducers { 
private AmazonKinesisClient kClient; 


//Location of the file from where we need to read the data 
private String filePath-"ChicagoCrimes-Aug-2015.csv"; 


/** 

* Constructor which initialize the Kinesis Client for working with the 
* Kinesis streams. 

Ew 

public AWSChicagoCrimesProducers() ( 

// Initialize the AWSCredentials taken from the profile configured in 
// the Eclipse replace "kinesisCred" with the profile 

//configured 


in your Eclipse or leave blank to use default. 
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// Ensure that Access and Secret key are present in credentials file 
// Default location of credentials file is $USER HOME/.aws/ credentials 
AWSCredentials cred = new ProfileCredentialsProvider("kinesisCr ed") 
-getCredentials(); 
kClient = new AmazonKinesisClient (cred) ; 
} 


[** 
* Read Each record of the input file and Submit each record to Amazon 
Kinesis Streams. 
* @param streamName - Name of the Stream. 
E 
public void readSingleRecordAndSubmit (String streamName) { 
String data - ""; 
try (BufferedReader br - new BufferedReader( 
new FileReader(new File(filePath)))) ( 
//Skipping first line as it has headers; 
br.readLine(); 
//Read Complete file - Line by Line 
while ((data - br.readLine()) !- null) ( 
//Create Record Request 
PutRecordRequest putRecordRequest = new PutRecordRequest(); 
putRecordRequest.setStreamName (streamName) ; 
putRecordRequest.setData (ByteBuffer.wrap((data. getBytes()))); 
//Data would be partitioned by the IUCR Codes, which is 5 column 
in the record 
String IUCRcode = (data.split(",")) [4]; 
putRecordRequest.setPartitionKey (IUCRcode) ; 
//Finally Submit the records with Kinesis Client Object 
System.out.println("Submitting Record = "+data); 
kClient.putRecord (putRecordRequest) ; 
//Sleep for half a second before we read and submit next record. 
Thread.sleep (500); 
} 
} catch (Exception e) { 


//Print exceptions, in case any 
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e.printStackTrace(); 


} 


[** 

* Read Data line by line by Submit to Kinesis Streams in the Batches. 
* @param streamName - Name of Stream 

* @param batchSize - Batch Size 

t 
public void readAndSubmitBatch(String streamName, int batchSize) ( 


String data - ""; 
try (BufferedReader br - new BufferedReader( 
new FileReader (new File(filePath)))) { 


//Skipping first line as it has headers; 

br.readLine(); 

//Counter to keep track of size of Batch 

int counter - 0; 

//Collection which will contain the batch of records 
ArrayList«PutRecordsRequestEntry» recordRequestEntryList = new 
ArrayList«PutRecordsRequestEntry» (); 
while ((data = br.readLine()) !- null) ( 

//Read Data and Create Object of PutRecordsRequestEntry 
PutRecordsRequestEntry entry = new PutRecordsRequestEntry (); 

entry.setData (ByteBuffer.wrap((data.getBytes ()))); 

//Data would be partitioned by the IUCR Codes, which is 5 column 
in the record 

String IUCRcode - (data.split(","))[4]; 

entry.setPartitionKey (IUCRcode); 

//Add the record the Collection 

recordRequestEntryList.add (entry); 

//Increment the Counter 


counter++; 
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//Submit Records in case Batch size is reached. 
jf (counter — batchsize) { 

PutRecordsRequest putRecordsRequest = new PutRecordsRequest () ; 
putRecordsRequest . setRecords (recordRequestEntryList); 
putRecordsRequest . setStreamName (streamName) ; 
//Finally Submit the records with Kinesis Client Object 
System.out.println ("Submitting Records = "«recordRequestEntryList. 
size()); 
kClient.putRecords (putRecordsRequest) ; 
//Reset the collection and Counter/Batch 
recordRequestEntryList = new ArrayList«PutRecordsRequest Entry» (); 
counter - 0; 
//Sleep for half a second before processing another batch 


Thread.sleep (500); 


) 
) catch (Exception e) ( 
//Print all exceptions 


e.printStackTrace(); 


} 

这 段 代 码 定义 了 一 个 构造 函数 和 两 个 方法 。 在 构造 函数 中 ， 创 建 了 一 个 到 AWS 的 连 
接 , 然后 使 用 readSingleRecordAndSubmit() 或 readAndSubmitBatch() 两 种 方法 之 一 来 读 取 和 
发 布 数据 到 Kinesis Vii. 两 种 方法 的 区 别 在 于 前 者 逐 行 读 取 和 提交 数据 , 但 后 者 先 读 取 数据 
再 批量 创建 和 提交 数据 到 Kinesis 流 。 可 以 参照 代码 中 的 注释 来 理解 AWSChicagoCrimes 生 
产 者 的 代码 。 


Qo 有 关 用 于 创建 Kinesis 生产 者 的 AWS API 的 更 多 信息 ， 请 参阅 http://docs. 
aws.amazon.com/kinesis/latest/dev/developing-producers-with-sdk.html. 
至 此 ， 完 成 了 生产 者 程序 。 下 面 创造 消费 者 ， 它 能 消耗 Kinesis 生产 者 发 布 的 数据 ， 
并 提出 一 些 实时 警报 。 
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5.2.5 创建 Kinesis 流 消费 者 





在 本 节 中 ， 将 使 用 Kinesis AWS API 创建 自 定义 消费 者 ， 以 消耗 来 自 Kinesis 流 的 消 
息 。 消 费 者 将 消耗 消息 ， 同 时 消费 者 还 将 检查 需要 特别 注意 的 特定 犯罪 并 提供 警报 。 
执行 以 下 步骤 ， 使 用 AWS SDK 提供 的 API 创建 消费 者 : 
(1) 打开 Eclipse 项目 RealTimeAnalytics-Kinesis， 并 在 chapter.five.kinesis.consumers 
包 中 添加 一 个 名 为 AWSChicagoCrimesConsumers.java 的 Java 类 。 该 消费 者 将 使 用 AWS 
API 来 消耗 和 分 析 来 自 Kinesis 流 的 数据 ， 然 后 在 消息 中 出 现 特定 犯罪 行为 时 生成 警报 。 
(2) AWSChicagoCrimesConsumers.java 的 完整 代码 可 以 与 本 书 提供 的 代码 示例 一 起 
下 载 , 也 可 以 从 https://drive.google.com/folderview ?id= 0BSoLQERok6YHUINQdjFxWXF6 
WWc&usp= sharing 下 载 。 
AWS API 提供 了 从 流 接收 消息 的 拉 模 型 , 因此 消费 者 将 每 隔 1 秒 轮 询 Kinesis 流 并 从 
Kinesis 流 中 提取 犯罪 数据 。 
Qo AKMFAA Kinesis 消费 者 的 AWS API 的 更 多 信息 ， 请 参阅 http://docs. 


aws.amazon.com/kinesis/latest/dev/developing-consumers-with-sdk.html. 








5.2.6 产生 和 消耗 犯罪 警报 


在 本 节 中 ， 将 讨论 运行 Kinesis 生产 者 和 Kinesis 消费 者 所 需 的 最 后 一 系列 步 又 。 
执行 以 下 步骤 来 运行 生产 者 和 消费 者 : 

(1) 打开 Eclipse 项 目 RealTimeAnalytics-Kinesis 并 添加 用 于 运行 消费 者 的 
MainRunConsumersjava 、 运 行 生 产 者 的 MainRunProducers.java 两 个 代码 文件 到 
chapter five.kinesis 包 中 。 

(2) 将 下 面 的 代码 添加 到 MainRunConsumers.java 中 : 


package chapter.five.kinesis; 


import chapter.five.kinesis.admin.ManageKinesisstreams; 


import chapter.five.kinesis.consumers.*; 
public class MainRunConsumers { 


//This Stream will be used by the producers/consumers using AWS SDK 
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public static String streamNameAWS = "AWSStreamingService"; 
public static void main(String[] args) { 


//Using AWS Native API's 
AWSChicagoCrimesConsumers consumers = new AWSChicagoCrimesConsumers () 7 
consumers.consumeAndAlert (streamNameAWS); 


//Enable only when you want to Delete the streams 

ManageKinesisStreams streams - new ManageKinesisStreams(); 
//streams.deleteKinesisStream (streamNameAWS); 
//streams.deleteKinesisStream(streamName); 

}} 


G) 将 下 面 的 代码 添加 到 MainRunProducers.java 中 : 


package chapter.five.kinesis; 


import chapter.five.kinesis.admin.ManageKinesisStreams; 
import chapter.five.kinesis.producers.*; 


public class MainRunProducers { 


//This Stream will be used by the producers/consumers using AWS SDK 
public static String streamNameAWS = "AWSStreamingService"; 


public static void main(String[] args) { 
ManageKinesisStreams streams = new ManageKinesisStreams () ; 
streams.createKinesisStream(streamNameAWS, 1); 

//Using AWS Native API's 

AWSChicagoCrimesProducers producers = new 


AWSChicagoCrimesProducers(); 


//Read and Submit record by record 

/ /producers.readSingleRecordAndSubmit (streamName); 
//Submit the records in Batches of 10 
producers.readAndSubmitBatch (streamNameAWS, 10); 
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//Enable only when you want to Delete the streams 
//streams.deleteKinesisStream(streamNameAWS); 
}} 


(4) 从 Eclipse 中 ， 执 行 MainRunProducers.java， 将 在 控制 台 上 看 到 日 志 消息 ， 类 
似 于 图 5.6 所 示 。 


Access Key = AKIAIUXS25SDIZ56GO4A 

Secret Key = hdmXqNq+HSqiz2gB/CnuXx@Thx/IRBNZSHTWqnPkE 

Creating new Stream = 'AWSStreamingService', with Shards = 1 
Stream 'AWSStreamingService' does Not exists...Need to create One 
Access Key = AKIAIUXS255DIZ56604A 

Secret Key = hdmXqNq*HSqHz2gB/CnuXeThx/IRBNzSHTWqnPkE 


Submitting Records - 10 
Submitting Records - 10 
Submitting Records = 10 
Submitting Records - 10 
Submitting Records - 10 





图 5.6 


(5) FK, HM Eclipse 执行 MainRunConsumers.java。 一 旦 运行 消费 者 ， 将 看 
到 消费 者 开始 接收 消息 ， 并 将 其 记录 在 控制 台 上 ， 类 似 于 图 5.7 所 示 。 


Data = 10217131,HY403974,08/30/2015 09:30:00 PM,O3OXX S UNION AVE,0620, BURGLARY, UNLAWFUL ENTRY,RESIDENCE-GARAGE, false, false 
Partition Key = 1320 

Sequence Number = 49554892388652275725592564809323220430258270925903167490 

Data = 10217163,HY404026,08/30/2015 09:30:00 PM,O61XX N WINTHROP AVE,1320,CRIMINAL DAMAGE,TO VEHICLE, RESIDENCE-GARAGE, false 


Partition Key = 1305 


Sequence Number = 49554892388652275725592564809324420356107885555077873666 

Data = 10218049,Hy404369, 08/30/2015 09:30:00 PM,045XX S WOOD ST,1305,CRIMINAL DAMAGE, CRIMINAL DEFACENENT, RESIDENCE, false, fa: 
Partition Key = 3760 

Sequence Number = 49554892388652275725592564809325638281927500184252579842 

Data = 10217066,HY403883,08/30/2015 09:29:00 PM,057XX W MADISON ST,3760, INTERFERENCE WITH PUBLIC OFFICER,OBSTRUCTING SERVICH 





图 5.7 


还 可 以 改进 消费 者 程序 ， 将 所 有 消息 存储 在 RDBMS EÈ NoSQL 中 ,以便 进 一 步 用 于 
执行 深度 分 析 。 当 拥有 可 实时 处 理 数据 馈送 的 可 扩展 架构 时 ， 有 无 限 可 能 值得 探索 。 
Q 在 数据 镇 送 完成 后 要 注意 及 时 清理 失效 数据 ， 即 删除 Kinesis 流 和 Dynamo 
表 ， 也 可 以 调用 ManageKinesisStreams.deleteKinesisStream() 方 法 删除 流 和 
Dynamo 表 。 


Kinesis 生产 者 和 消费 者 也 可 以 使 用 KPL Chttp://docs.aws.amazon.com/inesis/latest/ 
dev/developing-producers-with-kpl.html) 和 KCL (http://docs.aws.amazon.com/kinesis/latest/ 
dev/developing-consumers-with-kcl.html)。 这 些 库 是 高 级 API， 它 们 在 内 部 利用 AWS API 
并 提供 经 过 验证 的 设计 模式 ， 这 不 仅 有 助 于 加 快 整体 开发 ， 还 有 助 于 开发 强健 稳定 的 


架构 。 
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这 里 跳 过 了 使 用 KPL 和 KCL 开发 生产 者 和 消费 者 的 实现 ， 不 过 本 书 提供 的 示例 代 
码 已 包含 有 关内 容 。 可 参考 chapterfive.kinesis.prducers.KPLChicagoCrimesProducers.java 
和 chapter five kinesis.consumers.KCLChicagoCrimesConsumers.java 提供 的 生产 者 和 消费 
者 示例 。 





g KPL 需要 SLF4J (http://www.slf4j.org/) 和 Commons IO ( https://commons. 
apache.org/proper/commons-io/ ) 的 依赖 关系 。 对 于 KCL， 需 要 用 到 Amazon 
Kinesis Client 1.6.0 ( https://github.com/awslabs/amazon-kinesis-client )。 除 了 
各 自 网 站 ， 这 些 库 可 以 从 https://drive.google. com/open?id-0BSoLQERok6 
YHTWs5dEJUaHVDNU0 下 载 。 


在 本 节 中 , 创建 了 一 个 Kinesis 流 服务 , 用 它 接受 给 定 文件 中 的 芝加哥 犯罪 记录 数据 ， 
同时 消费 者 也 消耗 了 这 些 记录 , 并 在 Kinesis 流 接收 的 数据 出 现 特定 犯罪 记录 时 生成 警报 。 
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在 本 章 中 ， 讨 论 了 Kinesis 用 于 处 理 实时 数据 馈送 的 架构 。 使 用 AWS API 探索 了 
Kinesis 流 生产 者 和 消费 者 的 开发 。 最 后 ， 还 提 到 诸如 KPL 和 KCL 此 类 更 高 级 的 API 以 
及 它们 的 示例 ， 来 作为 创建 Kinesis 生产 者 和 消费 者 的 推荐 机 制 。 

在 下 一 章 中 ， 将 讨论 Apache Spark， 它 通过 引入 一 种 用 于 批 处 理 和 实时 数据 处 理 的 
新 范式 ， 为 行业 带 来 革命 性 影响 。 
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所 有 一 切 都 关乎 数据 ! 

大 多 数 企业 最 为 关键 的 目标 是 需要 分 析 及 混合 处 理 来 自 不 同 渠 道 的 数据 ， 如 CRM. 
门户 网 站 等 要 接收 数据 并 揭示 内 涵 ， 以 帮助 制定 业务 /营销 策略 、 通 知 决策 、 预 测 、 建 议 
等 。 现 在 至 关 重 要 的 是 如 何 高 效 、 有 效 、 快 速 地 挖掘 数据 中 的 隐藏 模式 。 

做 得 越 快 越 好 ! 

分 布 式 计算 (https://en.wikipedia.org/wiki/Distributed computing) 或 并 行 计算 /处 理 的 
模式 为 达成 企业 的 关键 目标 起 到 了 举足轻重 的 作用 。 分 布 式 计算 帮助 企业 在 彼此 连接 的 
多 个 节点 上 处 理 大 型 数据 集 ， 这 些 节点 可 能 是 地 理 上 呈 分 散 式 部 署 的 。 所 有 这 些 节 点 彼 
此 交互 并 努力 实现 共同 目标 。 

分 布 式 计 算 的 最 普遍 的 例子 之 一 就 是 Apache Hadoop (https://hadoop.apache.org/), 其 
在 分 布 式 模式 下 将 执行 map/reduce 〈 了 映射 /规约 ) 的 程序 引入 框架 。 

最 初 分 布 式 系统 被 当 作 批 处 理 ， 其 中 SLA〔 服 务 等 级 协议 的 缩写 ) 不 严格 ， 作 业 可 
能 需要 几 个 小 时 。 不 久 企业 引入 了 对 SLA 严格 (毫秒 或 秒 ) 的 实时 或 接近 实时 数据 处 理 
的 要 求 ， 这 种 误解 得 到 了 纠正 。 

这 是 一 个 完全 不 同 的 世界 ， 不 过 它 仍 是 分 布 式 计算 的 分 支 。 很 快 推出 了 诸如 Apache 
Storm (https://storm.apache.org/) 这 样 的 系统 ， 有 助 于 满足 企业 对 实时 或 接近 实时 数据 处 
理 的 需求 ， 然 而 这 也 只 是 在 一 定 程度 上 可 以 满足 需求 。 

当 企 业 意识 到 它们 无 法 使 用 两 组 不 同 的 技术 来 处 理 相同 的 数据 集 ，, 还 不 算 为 时 太 晚 。 

它们 需要 一 个 一 站 式 解 决 方案 来 满足 其 中 所 有 数据 处 理 需求 ， 这 个 方案 就 是 Apache 
Spark! 

下 面 来 进一步 了 解 Apache Spark 及 其 各 项 功能 。 

本 章 将 涵盖 以 下 主题 ， 这 些 内 容 将 有 助 于 读者 了 解 Spark 的 整体 架构 、 组 件 和 用 例 : 
Spark 概述 
Spark 的 架构 
弹性 分 布 式 数 据 集 (RDD) 
编写 执行 第 一 个 Spark 程序 





oooo 
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6.1 Spark 概述 


在 本 节 中 ， 将 讨论 作为 各 种 大 数据 用 例 的 主要 框架 之 一 的 Spark。 此 外 ， 还 将 讨论 
Spark 的 各 种 功能 及 其 在 不 同 场景 中 的 适用 性 。 

Spark 是 另 一 个 用 于 处 理 大 数据 的 分 布 式 框 架 ? 抑或 另 一 个 版 本 的 Hadoop? 

尽管 首次 听 到 Spark 会 有 此 初步 印象 , 可 这 既 非 事实 也 没有 论 及 本 质 。 下 面 将 很 快 讨 
论 其 声明 ， 但 在 此 之 前 要 先 了 解 批 处 理 和 实时 数据 处 理 。 


6.1.1. 批量 数据 处 理 


批量 数据 处 理 是 定义 一 系列 相继 执行 或 并 行 执行 的 作业 以 实现 共同 目标 的 过 程 。 大 
多 数 情况 下 ， 这 些 工作 是 自动 进行 的 ， 没 有 人 工 干预 。 这 些 作业 收集 输入 数据 并 批量 处 
理 数 据 ， 其 中 每 个 批量 的 大 小 可 以 变化 ， 其 范围 可 以 从 几 GB 到 几 TB/PB。 这 些 作业 在 
彼此 互 连 的 一 组 节点 上 执行 ， 从 而 形成 一 个 集群 或 集群 的 节点 。 

批 处 理 的 另 一 个 特征 是 它们 具有 宽松 的 SLA。 这 并 不 意味 着 其 中 没有 SLA HRE 
fi SLA， 只 是 批 处 理 过 程 在 业务 时 间 以 外 执行 ， 如 此 就 没有 来 自在 线 用 户 /系统 的 任何 工 
作 负荷 。 换 句 话说 ， 批 处 理 过 程 被 专门 分 配 一 个 批 处 理 窗口 期 ， 这 个 窗口 期 是 不 太 密 集 
的 在 线 活动 期 ， 例 如 9:00 PM 到 5:00 AM 的 非 工作 时 段 ， 并 且 要 求 所 有 批 处 理 过 程 在 该 
时 间 窗 口 期 间 触 发 和 完成 。 

下 面 讨论 批量 数据 处 理 的 几 个 用 例 。 

O 日志 分 析 / 解 析 : 这 是 最 常见 的 用 例 之 一 ， 在 这 里 应 用 程序 日 志 被 定期 (日 / 周 / 

月 /年 ) 收集 并 存储 到 Hadoop / HDFS 中 。 进 一 步 分 析 这 些 日 志文 件 以 获得 某 些 
KPI (关键 性 能 指标 的 缩写 ) ， 这 可 以 帮助 改进 应 用 程序 的 整体 行为 
Chttps://en.wikipedia.org/wiki/Log analysis) 。 

O ”预测 性 维护 ， 这 是 另 一 个 常见 用 例 ， 在 制造 业 中 需要 分 析 设 备 生 成 的 日 志 / 事 件 

以 确定 其 当前 状态 并 预测 何 时 执行 维护 。 这 种 维护 需要 可 观 的 投资 ， 如 果 事 先 
能 够 把 握 好 维护 时 段 ， 则 可 以 预 留 足够 的 资金 。 

O ”快速 索赔 处 理 : 这 是 医疗 保险 /保险 业 中 最 常 谈 到 的 用 例 之 一 。 索 赔 处 理 需 要 在 
任何 索赔 批准 之 前 处 理 大 量 数据 。 这 些 数 据 得 从 多 个 来 源 〈 可 能 以 不 同 的 格式 / 
结构 ) 收集 ， 然 后 验证 索赔 的 有 效 性 ， 最 后 实现 处 理 。 手 动 处 理 索赔 可 能 涉及 
EKER (R/H) ， 有 时 也 可 能 受 人 为 错误 波及 。 
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O ”定价 分 析 : 电子 商务 行业 的 定价 分 析 也 是 一 个 受 欢迎 的 用 例 ， 其 中 业务 分 析 师 
需要 根据 过 去 的 趋势 得 出 新 产品 的 定价 。 这 个 过 程 被 称 为 价格 弹性 ， 表 示 在 一 
段 时 间 内 现 有 产品 在 市 场 上 的 流行 情况 ， 通 常 基于 像 社会 /经 济 条 件 、 政 府 政策 
等 各 种 因素 。 
类 似 的 用 例 不 胜 枚 举 。 
上 述 所 有 用 例 对 业务 都 非常 重要 。 它 们 可 以 真正 改变 组 织 工作 的 方式 ， 帮 助 组 织 有 
效 地 做 方案 、 了 解 过 去 的 趋势 和 规划 未 来 。 简 而 言 之 ， 上 述 所 有 用 例 都 可 以 帮助 企业 以 
己 知 或 低 失败 风险 的 方式 进行 有 效 、 明 智 的 决策 。 
这 些 并 非 新 的 用 例 ，CEO / CTO /企业 家 多 年 来 都 知道 这 些 问题 。 那 么 为 什么 在 过 去 
没有 实现 Spark 呢 ? 
Spark 的 实现 不 简单 ， 而 且 面 临 如 下 挑战 。 
O 大 数据 数据 量 真 的 很 巨大 (TB/PB) ， 需 要 相当 数量 的 硬件 资源 来 解读 这 些 数 
据 ， 由 此 带 来 了 很 高 的 成 本 。 
O 分布 式 处 理 ， 不 能 以 单个 机 器 做 每 一 件 事 情 ， 需 要 分 布 式 或 并 行 处 理 数据 ， 这 
样 可 以 利用 多 个 节点 /机 器 处 理 数据 的 不 同 部 分 来 努力 实现 共同 目标 。 因 此 ， 需 
要 一 个 可 以 提供 横向 和 纵向 可 扩展 性 的 框架 https://en.wikipedia.org/wiki/ 
Scalability) 。 
Q SLA: JS SLA 要 求 宽松 ， 但 仍然 存在 着 SLA。 所 有 批 处理 过 程 都 需要 产生 符 
E SLA 的 结果 ， 如 果 没有 做 到 ， 有 时 会 导致 损失 或 留 下 负面 的 客户 体验 。 
O “容错 : 批 处 理会 处 理 大 量 数据 ， 这 都 需要 时 间 。 故 障 必然 会 发 生 ， 而 不 应 被 当 
作 异 常情 况 。 过 程 /硬件 /框架 应 该 是 容错 的 ， 这 样 一 旦 发 生 故障 ， 它 们 应 该 能 够 
从 失败 的 地 方 继续 使 用 其 他 可 用 资源 ， 而 不 是 从 头 再 来 Clattps://en. wikipedia.org 
/wiki/Fault_tolerance) 。 
前 面 的 用 例 和 挑战 足以 帮助 读者 理解 构建 /设计 批 处 理 作 业 所 涉及 的 重要 性 、 真 切 性 
和 复杂 性 。 
这 并 不 简单 易 行 ， 需 要 一 个 高 效 、 有 效 、 可 扩展 、 高 性 能 、 容 错 和 分 布 式 的 架构 来 
实现 。 下 面 将 很 快 讨论 到 Spark 如 何 有 助 于 解决 这 些 挑战 ， 以 及 为 什么 只 需要 使 用 Spark 
而 不 是 其 他 事物 ， 但 在 此 之 前 ， 先 快速 了 解 一 下 实时 数据 处 理 。 


6.1.2 ”实时 数据 处 理 


实时 数据 处 理 系统 是 需要 连续 数据 消耗 并 立即 产生 逻辑 正确 结果 秒 或 毫秒 ) 的 
系统 。 
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实时 (RT) 系统 也 被 称 为 近 实 时 (NRT) 系统 ， 因 为 从 数据 被 消耗 和 结果 被 处 理 的 
时 间 里 引入 了 延迟 。RT 或 NRT 系统 使 组 织 能 够 在 需要 立即 做 出 决策 的 情况 下 迅速 采取 
行动 和 响应 ， 如 果 做 不 到 ， 则 可 能 对 消费 者 体验 产生 不 利 影响 ， 或 在 某 些 情况 下 ， 可 能 
导致 致命 的 或 灾难 性 后 果 。 这 些 系统 具有 严格 的 SLA， 并 且 在 任何 情况 下 都 不 能 违反 
SLA。 以 下 是 RT 或 NRT 用 例 的 几 个 示范 。 


日 


口 


口 


物 联网 AoT) : 简 而 言 之 ，IoT 收集 从 嵌入 在 不 同 网 络 或 硬件 设备 中 各 式 各 样 
传感器 发 出 的 数据 ， 然 后 实现 这 些 设 备 之 间 的 交互 。 例 如 ， 安 装 在 汽车 上 的 防 
盗 设 备 将 生成 警报 ， 并 将 这 些 警 报 发 送 给 汽车 所 有 者 ， 同 时 发 送 到 最 近 的 警察 
局 以 便 立 即 采取 行动 Chttps://en.wikipedia.org/wiki/Internet_of Things) 。 

在 线 交 易 系 统 : 这 是 金融 行业 最 关键 的 用 例 之 一 ， 消 费 者 可 以 在 几 秒 钟 内 马上 
购买 到 商品 或 服务 。 这 可 能 包括 股票 、 债 券 、 货 币 、 商 品 、 衍 生物 等 产品 
Chttps://en.wikipedia.org/wiki/Electronic_trading platform) 。 

在 线 发 布 : 这 是 向 用 户 提供 或 发 布 NRT 更 新 的 实例 ， 在 此 需 向 用 户 即 时 提供 关 
于 政治 、 突 发 新 闻 、 体 育 、 技 术 、 娱 乐 等 各 种 主题 的 头条 和 趋势 性 新 闻 
Chttps://en.wikipedia.org/ wiki / Electronic publishing) . 

生产 线 : 这 些 装置 实时 消耗 、 分 析 和 处 理 机 器 生成 的 数据 。 采 取 适 当 的 措施 可 
以 节省 生产 的 总 成 本 ， 和 否则 可 能 生产 出 低 质 量 或 有 缺陷 的 产品 。 

在 线 游戏 系统 : 适应 用 户 的 行为 ， 然 后 实时 采取 行动 或 做 出 决策 是 在 线 游 戏 系 
统 最 流行 的 策略 之 一 。 


类 似 的 用 例 不 胜 枚 举 。 
所 有 上 述 用 例 都 需要 把 即时 响应 发 送 给 用 户 ， 这 为 RT 或 NRT 系统 引入 了 一 些 显 著 
特性 或 挑战 。 


口 





严格 的 SLA: RT EÈ NRT 系统 需要 以 秒 或 毫秒 为 单位 来 消耗 和 处 理 数据 。 分 析 
可 以 很 简单 ， 例 如 在 消息 中 找到 一 些 预定 义 模式 ; 或 者 可 以 是 复杂 的 模式 ， 例 
如 为 用 户 产生 实时 推荐 。 

从 故障 中 恢复 : NRT 系统 应 足够 强大 ， 如 此 一 来 它们 可 以 从 故障 中 及 时 恢复 而 
不 会 对 外 部 系统 定义 的 响应 时 间或 SLA 产生 不 良 影 响 ， 当 然 也 不 应 该 对 数据 的 
完整 性 产生 不 良 影响 。 

可 扩展 性 : NRT 系统 需要 具有 横向 扩展 架构 ， 以 便 只 需 增加 计算 资源 ， 而 无 须 
重新 构建 完整 解决 方案 ， 即 可 满足 不 断 增长 的 数据 需求 。 

全 内 存 访问 ， 任何 从 持久 存储 《〈 如 硬盘 ) 读 取 数 据 的 系统 肯定 会 产生 额外 的 延 
迟 ， 而 在 NRT 系统 中 负担 不 起 延迟 的 代价 。 因 此 ， 为 了 最 小 化 延迟 并 对 用 户 快 
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速 响应 ， 一 切 消耗 和 处 理 都 在 系统 内 存 中 实现 。 需 要 确保 在 任何 时 间 点 ，NRT 
系统 都 有 足够 的 内 存 来 消耗 和 处 理 数据 。 
O 异步 : 任何 NRT 系统 的 另 一 个 关键 架构 特性 是 以 异步 方式 消耗 和 处 理 数 据 ， 以 
便 在 一 个 进程 中 出 现 的 任何 问题 不 会 影响 为 其 他 进程 定义 的 SLA。 
前 面 的 用 例 和 挑战 足以 理解 ， 像 批 处 理 一 样 ， 设 计 / 架 构 RT 或 NRT 系统 不 是 那么 简 
单 。 设 计 高 效 、 有 效 和 可 扩展 的 RT / NRT 系统 需要 高 水 平 的 专业 知识 和 大 量 资源 。 
现在 已 经 了 解 了 批 处 理 和 实时 数据 处 理 的 复杂 性 , 下 面 继 续 前 进 , 看 看 Spark 怎样 大 
显 神通 ， 也 探讨 一 下 Spark 为 何不 可 取代 。 


6.1.3 一 站 式 解决 方案 Apache Spark 


在 本 节 中 将 讨论 Spark 作为 全 方位 满足 数据 处 理 需 求 的 框架 如 何 脱颖而出 , 它 可 以 是 
批 处 理 或 NRT. 

Apache Hadoop (https://hadoop.apache.org/) 或 Storm (https://storm.apache.org/) 等 框 
架 可 用 于 设计 强大 的 批 处 理 或 实时 系统 ， 可 真正 的 挑战 是 这 两 个 系统 的 编程 范式 截然 不 
同 。 架 构 师 /开发 人 员 需 要 掌握 两 种 不 同 的 体系 结构 : 一 种 用 于 部 署 在 Hadoop 这 样 框架 
上 的 批 处 理 ， 另 一 种 用 于 采用 Apache Storm 这 样 框架 的 RT BK NRT 系统 。 

对 于 专 为 批量 或 实时 数据 处 理 而 开发 的 系统 尚 可 接受 ， 但 应 该 考虑 到 现代 企业 的 需 
求 ， 这 些 需 求 中 要 从 多 个 不 同 的 数据 源 接收 数据 ， 并 且 要 以 通用 算法 集 实 时 和 批量 地 分 
析 这 些 数 据 。 唯 一 的 区 别 在 于 可 由 系统 处 理 的 数据 量 ， 要 考虑 用 例 施加 的 延迟 、 吞 吐 量 
和 容错 等 需求 ， 要 满足 的 目标 是 既 可 以 使 用 批 处 理 来 提供 对 批量 数据 全 面 准确 的 视图 ， 
同时 可 以 使 用 实时 流 处 理 来 提供 在 线 数 据 的 视图 。 如 果 两 个 视图 输出 预先 得 到 联合 ， 它 
们 的 呈现 效果 将 进一步 得 到 增强 。 

这 就 是 架构 师 /开发 人 员 所 需要 的 新 架构 范式 ， 通 过 单一 框架 来 满足 批量 和 实时 数据 
处 理 的 需求 。 

需要 是 发 明之 母 ， 诚 如 斯 言 。 

Apache Spark 是 作为 下 一 代 框 架 和 一 站 式 解 决 方案 开发 的 ， 适 用 于 无 论 是 否 需 要 批 
量 处 理 或 实时 处 理 的 所 有 用 例 。 

Apache Spark 最 早 是 加 州 大 学 伯克利 分 校 AMPLab 在 2009 年 开发 的 一 个 项 目 , 在 后 
来 成 为 Apache HLTA, wF 2014 年 2 月 成 长 为 其 中 一 个 顶级 项 目 。Spark 是 一 个 
通用 的 分 布 式 计算 平台 ， 既 支持 批 处 理 ， 也 支持 接近 实时 的 数据 处 理 。 

对 比 Apache Hadoop (MapReduce) 和 Apache Storm 来 讨论 Spark 的 一 些 特性 ， 如 表 6.1 
所 示 。 
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表 6.1 
特性 Apache Spark Apache Hadoop Apache Storm 
内 存 和 可 配置 的 分 布 式 文件 
系统 备份 。 它 可 以 是 HDFS 、 
e HUBER LINE HI E 0 AMAR ate 
或 Tachyon (http://tachyon- 
project.org/) 
批 处 理 〈 微 小 批 处 理 )， 实 
用 例 时 数据 处 理 , 和 迭代 和 交互 式 实时 (每 个 消息 到 达 即 被 处 理 ) 
分 析 
捕获 应 用 于 原始 数据 的 计 
算 以 实现 当前 状态 , 并且 在 Storm 支持 事务 拓扑 ,这 允许 
容错 发 生 任何 故障 的 情况 下 , 它 | 在 不 同 节点 上 维护 相同 数据 | 完全 容错 的 一 次 性 消息 传递 
将 同样 的 计算 集合 应 用 于 | 集 的 多 个 副本 语义 。 有 关 更 多 详细 信息 , 请 
原始 数据 ， 也 被 称 为 数据 参阅 http://tinyurl. conyo4ex43o 
沿袭 
ee 定义 Thrift 接口 , 能 够 用 任何 
iei Java. Scala. Python ÑIR | Java 语言 实现 以 定义 和 提交 拓扑 
Chttp://tinyurl. com/ooemyac ) 
硬件 | 通用 商业 硬件 通用 商业 硬件 
易于 管理 , 因为 所 有 实时 或 
管理 批 处 理 用 例 都 可 以 部 署 在 | 仅 适用 于 批 处 理 用例 仅 适 用 于 近 实 时 处 理 用 例 
单个 框架 中 
Spark 是 一 个 通用 的 集群 计 
算 框架 , 可 以 在 独立 模式 下 | Apache Hadoop 有 自己 的 部 | Storm 有 自己 的 部 署 模型 , 不 
部 署 部 署 , 也 可 以 在 各 种 其 他 框 | 署 模型 , 不 能 部 署 在 其 他 分 布 | 能 部 署 在 任何 其 他 分 布 式 集 
架 (如 YARN 或 Mesos) 上 | 式 集群 计算 框架 上 群 计算 框架 上 
部 署 
ap | 比 Hadoop 快 10 们 ,因为 数 | 从 HDES Ib A ndi m T 





据 在 内 存 本 身 进行 读 / 写 





um 消息 





*112* 实时 大 数据 分 析 一 一 基于 Storm, Spark 技术 的 实时 应 用 
特性 Apache Spark Apache Storm 
分 布 式 通过 在 分 布 式 工 作者 的 内 Storm 没有 任何 分 布 式 缓存 功 
ij 
5 存 中 缓存 部 分 结果 , 确保 更 | 完全 取决 于 磁盘 能 ， 但 可 以 使 用 Memcached 
低 的 延迟 计算 或 Redis 等 框架 
" D 
nse Y i Lian 仅 支持 Java, 因此 MapReduce i 
易 用 性 | 样 的 功能 性 语言 ， 生 成 精 支持 多 种 语言 
、 显得 元 长 和 复杂 
简 代码 
s 心 框架 不 提供 
提供 如 map. reduce 、 in pa El 
高 级 flatmap, group, sort, union, | 不 提供 除 map 和 reduce 之 外 a $ amare ;连接 四 
可 用 于 ERE. 
操作 intersection, aggregation, | 的 任何 预定 义 操作 ie 分 组 等 Clos 
Cartesian 等 常见 操作 
tinyurl.com/o2z5w5j ) 
S 是 一 个 支持 扩展 开发 的 
提供 对 核心 APT 的 定义 清 a : : l 
API 及 | 晰 的 抽象 ， 可 以 扩展 到 在 | 提供 严格 的 APL 不 允许 多 样 | EA A neen 
扩展 | Core Spark 上 开发 扩展 / 库 ，| 性 扩展 Ten He EE 
a : 就 是 在 Storm 上 开发 的 此 类 
例如 Streaming. GraphX 等 
框架 
Apache Had 1 强大 
通过 共享 密 钥 提供 基本 安 | Apache Hadoop 有 自己 强大 | stonn ol0+ 所 供 了 可 插 拔 认 
安全 性 | 全 性 身份 验证 ChtpyhinyurL | RM ERR: EA 证 和 授权 框架 Chttpyhtinyutl 
j : Kerberos 和 LDAP 进行 身份 i 
com/q9aro45 ) com/nwlxsxy ) 





验证 和 授权 





在 接 下 来 的 部 分 将 讨论 Spark 的 上 述 功能 , 但 由 前 面 的 比较 应 该 足以 理解 Spark 是 一 
个 提供 了 Hadoop 和 Storm 所 有 功能 的 框架 ,可 以 近乎 实时 地 处 理 消息 ,并且 同时 还 可 以 
提供 批 处 理 能 力 。 最 好 的 部 分 是 它 提供 了 通用 的 编程 范例 ， 可 以 应 用 于 批 处 理 或 接近 实 
时 的 数据 处 理 ， 可 供 企业 按 需 要 选用 。 


相信 现在 已 确 知 Apache Spark 真是 下 一 代 框 架 。 对 于 需要 实时 或 批量 处 理 的 所 有 用 











例 来 说 ， 它 可 作为 一 站 式 解决 方案 。 
下 一 节 将 继续 讨论 一 些 Apache Spark 的 实际 用 例 。 


6.1.4 何 时 应 用 Spark 一 一 实际 用 例 


在 本 节 将 讨论 利 月 




















H Apache Spark 作为 分 布 式 计算 框架 的 各 种 用 例 。 
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Apache Spark 是 作为 一 个 通用 的 集群 计算 框架 开发 的 ， 适 用 于 各 种 用 例 。 在 一 些 使 
用 情况 下 ， 它 可 以 工作 到 最 好 。 对 于 其 他 一 些 情况 ， 它 仍 可 以 工作 ， 但 不 一 定 是 一 个 理 
想 的 选择 。 

下 面 是 一 些 Apache Spark 工作 效果 最 佳 的 用 例 , 这 些 情 况 下 它 会 是 一 个 理想 的 选择 。 


口 











批 处 理 : Spark 是 一 个 非常 适合 大 多 数 批 处 理 用 例 的 通用 集群 计算 框架 。 如 日 志 
分 析 、 定 价 分 析 和 理赔 处 理 这 些 用 例 都 是 能 够 很 好 地 采用 Apache Spark 实现 的 
范例 。 

流 式 处 理 : 处 理 流 式 数据 有 着 不 一 样 的 预期 ， 其 中 SLA 尤为 严格 ， 这 里 与 批 处 
理 不 同 的 是 ， 结 果 需 要 在 秒 /毫秒 时 间 内 完成 传送 。 处 理 流 数据 类 似 于 实时 或 接 
近 实 时 的 数据 处 理 。 Spark Streaming (http: //spark.apache.org/docs/latest/streaming- 
programming-guide.html)〉 是 一 个 通过 核心 Spark 框架 开发 的 扩展 ， 可 以 用 于 实 
现 流 用 例 。 例 如 IoT、 在 线 发 布 等 实时 或 接近 实时 的 用 例 ， 是 可 以 采用 Spark 和 
Spark Streaming 实现 的 几 个 范例 。 

数据 挖掘 : 数据 挖掘 Chttps://en.wikipedia.org/wiki/Data_ mining) 是 计算 机 科学 
中 的 一 个 专门 的 分 支 ， 主 要 是 识别 所 提供 数据 中 的 隐藏 模式 ， 涉 及 聚 类 、 分 类 、 
推荐 等 多 种 相关 迭代 和 机 器 学 习 算 法 的 实现 。Spark 为 此 提供 了 更 多 的 扩展 方案 。 
MLlib: MLlib (http://spark.apache.org/docs/latest/mllib-guide.html) 是 通过 核心 
Spark 框架 开发 的 ， 其 中 提供 了 各 种 机 器 学 习 算 法 的 分 布 式 实现 。Spark 机 器 学 
习 库 可 以 用 于 开发 提供 预测 智能 、 营 销 目标 的 客户 细 分 、 推 荐 引擎 和 情绪 分 析 
这 些 功能 的 应 用 程序 。 

图 形 计算 : 这 是 计算 机 科学 中 的 另 一 个 专业 领域 ， 其 重点 是 不 同 实体 之 间 的 关 
系 。 该 结构 是 项 点 和 边 的 形式 ， 其 中 顶点 是 实体 本 身 ， 边 是 这 些 实体 之 间 的 关 
系 。 图 形 计 算 对 于 模拟 各 种 现实 世界 中 数据 不 断 发 展 的 用 例 非常 有 用 ， 这 些 用 
例 包含 社交 网 络 、 网 络 管理 、 公 共 交 通 链接 和 路 线 图 等 。Spark 为 此 提供 了 更 多 
的 扩展 实现 方案 选择 。 

GraphX: GraphX (http://spark.apache.org/docs/latest/graphx-programming-guide.html) 
可 用 来 对 顶点 和 边缘 形式 组 成 的 数据 进行 建 模 和 结构 化 ， 并 提供 图 形 并 行 计算 
支持 ， 还 提供 了 多 种 图 形 算 法 的 实现 。 

交互 式 分 析 : 在 此 过 程 中 ， 要 跨行 业 收 集 历史 数据 ， 并 且 工 程 师 对 用 于 交互 式 
分 析 的 数据 垂 手 而 得 。 特 定 查询 变 得 越 来 越 重 要 ， 这 不 仅 是 存储 更 便宜 的 缘故 ， 
还 缘 于 敏捷 、 迅 速 和 定性 的 决策 对 更 快 响应 时 间 的 实时 需求 。 大 规模 交互 式 数 
据 分 析 的 执行 需要 高 度 的 并 行 性 。Spark 提供 了 额外 的 扩展 Spark SQL 
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(http://spark.apache. org/docs/latest/sql-programming-guide.html) ， 其 有 助 于 行 和 
列 中 数据 的 结构 化 处 理 ， 并 且 还 提供 了 用 于 自 组 织 和 交互 式 数据 分 析 的 分 布 式 
查询 引擎 。 
Spark 仍 在 不 断 发 展 ， 并 且 已 经 努力 在 核心 Spark. 框架 上 开发 越 来 越 多 的 扩展 / 库 ， 
以 便 可 以 使 用 Spark 及 其 扩展 来 解决 各 种 业务 用 例 。 在 接 下 来 的 章节 中 ， 将 更 多 地 讨论 
Spark 编程 模型 及 其 扩展 。 
下 一 节 将 深入 了 解 Spark 及 其 各 种 组 件 的 架构 , 然后 在 后 续 章 节 中 , 还 将 讨论 它 的 各 
种 扩展 。 
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本 节 将 详细 讨论 Spark 及 其 各 个 组 件 的 体系 结构 ， 还 将 讨论 Spark 的 各 种 扩展 / 库 ， 它 
们 是 通过 核心 Spark 框架 开发 的 。 

Spark 是 一 个 通用 计算 引擎 ， 最 初 专注 于 为 迭代 和 交互 式 计算 与 工作 负载 提供 解决 方 
案 ， 比 如 跨 多 个 并 行 操作 来 重用 中 间或 工作 数据 集 的 机 器 学 习 算 法 。 

迭代 计算 的 真正 挑战 是 中 间 数 据 /步骤 对 整个 作业 的 依赖 性 。 这 种 中 间 数 据 需 要 被 缓存 
在 内 存 本 身 中 以 便 更 快 地 计算 ， 因 为 从 磁盘 的 刷新 和 读 取 会 造成 存 取 开 销 、 进 而 拖 慢 整个 
迭代 计算 过 程 是 不 可 接受 的 。 

Apache Spark 的 创建 不 仅 提供 了 可 扩展 性 、 容 错 性 、 高 性 能 和 分 布 式 数据 处 理 ， 而 且 
还 提供 了 在 节点 集群 上 分 布 式 数 据 的 内 存 处 理 。 

为 实现 这 一 点 ， 引 入 了 在 一 组 机 器 〈 集 群 ) 上 分 区 的 分 布 式 数据 集 的 新 层 抽象 ， 可 以 
将 其 高 速 缓存 在 内 存 中 以 减少 延迟 。 这 个 新 的 抽象 层 被 称 为 弹性 分 布 式 数据 集 RDD). 

根据 定义 ，RDD 是 一 个 不 可 变 (只 读 ) 对 象 集合 ， 分 布 在 一 组 分 区 丢失 时 可 以 重新 构 
建 的 机 器 上 。 

重要 的 是 要 注意 Spark 能 够 执行 内 存 操作 , 但 同时 它 也 可 以 处 理 存储 于 磁盘 上 的 数据 。 

在 下 一 节 中 将 更 多 地 了 解 RDD， 继 续 讨论 Spark 的 组 件 和 架构 。 


6.2.1 高 级 架构 








Spark 提供 了 一 个 定义 良好 的 分 层 架构 ， 其 中 所 有 的 层 和 组 件 都 松散 耦合 ， 并 且 使 用 
定义 良好 的 合约 与 外 部 组 件 / 库 /扩展 集成 。 
如 图 6.1 所 示 是 Spark 1.5.1 及 其 各 种 组 件 / 层 的 高 级 架构 。 
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Spark Extensions 


Spark Core Libraries 








Resource Manager 
(Yarn/ Mesos/ Standalone) 


Data storage Layer 
(S3/Filesystem/ HDFS) 


Physical Machines 











Node | Node | Node | Node 





图 6.1 


下 面 讨论 每 个 架构 组 件 的 角色 和 用 法 。 


口 


日 


物理 机 CPhysica/Machines) : 这 一 层 表 示 在 其 上 执行 Spark. 作业 的 物理 或 虚拟 
机 /节点 。 这些 节 点 共同 代表 了 集群 里 以 CPU、 存储 器 和 数据 存储 表示 的 总 容量 。 
数据 存储 层 (Data Storage Layer) : 这 一 层 提 供用 于 将 数据 从 持久 存储 区 域 保存 
和 检索 到 Spark 作业 /应 用 程序 的 API。 只 要 集群 内 存 不 足以 容纳 数据 ，Spark T. 
作者 就 会 使 用 这 一 层 向 持久 存储 器 上 转 储 数据 。Spark 是 可 扩展 的 并 能 使 用 任何 
类 型 的 文件 系统 。 保 存 数据 的 RDD 对 底层 存储 层 是 不 可 知 的 ， 并 且 可 以 将 数据 
持久 存储 在 诸如 本 地 文件 系统 , HDFS 或 其 他 诸如 HBase, Cassandra, MongoDB, 
S3 和 Elasticsearch 之 类 NoSQL 数据 库 的 各 种 持久 存储 区 域 中 。 
资源 管理 器 (Resource Manager) : Spark 的 架构 抽象 出 Spark 框架 及 其 相关 应 
用 程序 的 部 署 。Spark 应 用 程序 可 以 利用 集群 管理 器 ,例如 YARN 
Chttp://tinyurl.com/pcymnnf) 和 Mesos (http://mesos.apache.org/) 来 为 客户 端 作 
业 分 配 和 释放 如 CPU 和 内 存 各 种 物理 资源 。 资 源 管 理 器 层 提 供用 于 请 求 跨 集群 
分 配 和 释放 可 用 资源 的 API。 
Spark 核心 库 (Spark Core Libraries) : Spark 核心 库 表 示 Spark 核心 引擎 ， 负 责 
执行 Spark 作业 ， 包 含 用 于 内 存 中 分 布 式 数据 处 理 的 API 和 支持 各 种 应 用 程序 
和 语言 的 通用 执行 模型 。 
Spark 扩展 / 库 〈Spark Extensions/ Libraries) : 此 层 代表 通过 扩展 Spark 核心 API 
以 支持 不 同 用 例 而 开发 的 其 他 框架 /API/ 库 。 例 如 ，Spark SQL 就 是 一 个 这 样 的 
扩展 ， 可 用 其 开发 对 大 型 数据 集 的 特定 查询 和 交互 式 分 析 。 
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通过 前 面 的 架构 ， 应 该 足够 充分 地 了 解 Spark 提供 的 各 种 抽象 层 。 所 有 层 都 松 耦 合 ， 
如 果 需 要 ， 可 以 根据 要 求 进行 更 换 或 扩展 。 

Spark 扩展 / 库 是 架构 师 和 开发 人 员 广 泛 使 用 的 此 类 层 之 一 ， 用 于 开发 自 定义 库 。 下 
面 继续 前 进 ， 详 细 讨 论 Spark 扩展 / 库 ， 可 用 于 开发 自 定义 应 用 程序 /作业 。 


6.2.2 














Spark 扩展 / 库 








在 本 节 中 ， 将 讨论 可 用 于 不 同 用 例 的 各 种 Spark 扩展 / 库 的 用 法 。 
以 下 是 Spark 1.5.1 提供 的 扩展 / 库 。 


口 








Spark Streaming: Spark Streaming 作为 扩展 ， 是 通过 核心 Spark API 开发 的 ， 支 
持 对 实时 数据 流 进 行 可 伸缩 、 高 吞吐 量 和 容错 的 流 处 理 。Spark Streaming 允许 
从 诸如 Kafka、Flume、Kinesis 或 TCP 套 接 字 各 种 来 源 提 取 数 据 。 一 旦 数据 被 摄 
取 ， 可 以 使 用 诸如 映射 、 规 约 、 连 接 和 窗口 等 高 级 函数 表示 的 复杂 算法 来 进 一 
步 处理 。 最 后 处 理 的 数据 可 以 推送 到 文件 系统 、 数 据 库 和 活动 仪表 板 。 实 际 上 ， 
Spark Streaming 还 便于 实现 Spark 对 数据 流 的 机 器 学 习 和 图 形 处 理 算法 。 有 关 更 
多 信息 ， 请 参阅 http://spark.apache.org/docs/latest/streaming-programming-guide. 
html。 

Spark MLlib: Spark MLlib 是 另 一 个 提供 了 各 种 机 器 学 习 算 法 的 分 布 式 实现 的 扩 
展 ， 其 目标 是 使 实用 的 机 器 学 习 库 可 扩展 和 易于 使 用 。Spark MLlib 提供 了 用 于 
分 类 、 回 归 、 聚 类 等 各 种 常用 机 器 学 习 算 法 的 实现 。 有 关 更 多 信息 ， 请 参阅 
http://spark.apache.org/docs/latest/mllib-guide.html. 

Spark GraphX: Spark GraphX 提供 API 来 创建 带 有 每 个 顶点 和 边 附加 属性 的 定 
向 多 图 ， 还 提供 各 种 公共 运算 符 ， 可 用 于 诸如 PageRank 和 三 角形 计数 这 些 图 形 
算法 的 聚合 和 分 布 式 实现 。 更 多 相关 信息 ， 请 参阅 http://spark.apache.org/docs/ 
latest/graphx-programming-guide.html. 

Spark SQL: Spark SQL 提供 结构 化 数据 的 分 布 式 处 理 ， 并 利于 以 结构 化 查询 语 
言 所 表达 关系 查询 的 执行 (http://en.wikipedia.org/wiki/SQL) ， 提 供 了 称 为 
DataFrames 的 高 级 抽象 ， 即 组 织 到 命名 列 的 分 布 式 数据 集合 。 更 多 相关 信息 ， 
请 参阅 http://spark.apache.org/docs/latest/sql-programming-guide.html. 

SparkR: R (https://en.wikipedia.org/wiki/R programming language) 是 一 种 用 于 
统计 计算 和 执行 机 器 学 习 任务 的 流行 编程 语言 , 然而 R 语言 的 执行 是 单线 程 的 ， 
这 使 得 它 难以 应 用 于 TB 或 PB 量 级 大 数据 处 理 。R 只 能 处 理 适 合 单个 机 器 的 内 
存 的 数据 .为 了 克服 RR 的 局 限 性 , Spark 引入 了 一 个 新 的 扩展 一 一 SparkR。SparkR 
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提供 了 一 个 接口 来 调用 和 利 上 

















KÉ R AY Spark 分 布 式 执行 引擎 ,这 允许 用 户 从 及 


Shell 运行 大 规模 数据 分 析 。 更 多 相关 信息 ， 请 参阅 http://spark.apache.org/docs/ 


latest/sparkr.html.. 





所 有 前 面 列 出 的 Spark 扩展 / 库 都 是 标准 Spark 发 行 版 的 一 部 分 。 一 旦 安装 和 配置 
Spark 完毕 ， 就 可 以 开始 使 用 扩展 公开 的 API。 

除了 早期 的 扩展 ，Spark 还 提供 了 由 开源 社区 开发 和 提供 的 其 他 外 部 包 。 这 些 包 不 是 
随 标准 Spark 分 发 版 一 起 发 布 的 ， 但 可 以 从 http://spark-packages.org/ 搜 索 和 下 载 。Spark 
包 提供 了 用 于 与 各 种 数据 源 、 管 理工 具 、 高 级 特定 领域 库 、 机 器 学 习 算 法 、 代 码 示例 和 











其 他 Spark 内 容 集 成 的 库 / 包 。 


下 一 节 将 深入 Spark 封装 结构 和 执行 模型 ， 还 将 讨论 其 他 Spark 组 件 。 
6.2.3 Spark 的 封装 结构 和 API 


在 本 节 中 ,将 简要 讨论 Spark 代码 库 的 封装 结构 ， 还 将 讨论 核心 包 和 API， 架 构 师 和 
开发 人 员 经 常 将 它们 用 于 使 用 Spark 开发 自 定义 应 用 程序 。 
Spark 是 用 Scala (http://www.scala-lang.org/) 编写 的 ， 但 是 为 了 实现 互 操作 性 ， 还 在 





Java 和 Python 中 提供 了 等 效 的 API. 


S 为 了 简洁 起 见 ， 此 处 只 讨论 Scala 和 Java API， 对 于 Python API， 用 户 可 以 
参考 https://spark.apache.org/docs/1.5.1/api/python/index. html. 


高 级 Spark 代码 库 分 为 以 下 两 个 包 。 

O Spark 扩展 : 特定 扩展 的 所 有 AP 都 封装 在 自己 的 包 结 构 中 。 例 如 ，Spark 
Streaming 的 所 有 API 都 包装 在 org.apache.spark.streaming.* 包 中 ， 并 且 相 同 的 包 
结构 适用 于 其 他 扩展 : Spark MLlib 一 一 org.apache.spark.mllib.*、Spark SQL 一 一 
org.apcahe.spark.sql.*、Spark GraphX——org.apache.spark.graphx.* . 


QÅ 有 关 更 多 信息 ， 请 参阅 huep:/tinyurl com/q2wgar’ (适用 于 Scala API) 和 
http://tinyurl.com/nc4qu51 ( 适用 于 Java API). 


O Spark Core: Spark Core 是 Spark 的 核心 ， 提 供 了 两 个 基本 组 件 一 一 SparkContext 
和 SparkConfig。 这 两 个 组 件 由 每 个 标准 或 定制 的 Spark 作业 或 Spark 库 和 扩展 
使 用 。Context 和 Config 不 是 新 概念 ,或 多 或 少 它们 现在 已 经 成 为 标准 的 架构 模 
式 。 根 据 定义 ，Context 是 应 用 程序 的 入 口 点 ， 其 提供 对 框架 公开 的 各 种 资源 / 
函数 的 访问 ， 而 Config 包含 应 用 配置 ， 有 助 于 定义 应 用 的 环境 。 





* 118* 


实时 大 数据 分 析 一 一 基于 Storm. Spark 技术 的 实时 应 用 


下 面 继续 讨论 Spark Core 公开 的 Scala API 有 关 细 节 。 


日 


口 


org.apache.spark: 这 是 所 有 Spark API 的 基础 包 ， 包 含 在 集群 上 创建 /分 发 /提交 
Spark 作业 的 功能 。 

org.apache.spark.SparkContext: 这 是 任何 Spark 作业 /应 用 程序 中 的 第 一 个 语句 ， 
定义 了 SparkContext， 然 后 进一步 定义 在 作业 /应 用 程序 中 提供 的 自 定义 业务 多 





数 连接 到 Spark 集群 、 提 交 作 业 等 ， 甚 至 对 所 有 Spark 扩展 的 引用 都 由 

SparkContext 提供 。 每 个 JVM 只 能 有 一 个 SparkContext， 如 果 要 创建 一 个 新 的 

JVM， 则 需要 停止 已 有 的 SparkContext。SparkContext 是 不 可 变 的 ， 这 意味 着 它 

不 能 在 启动 后 进行 更 改 或 修改 。 

org.apache.spark.rdd.RDD.scala: 这 是 Spark 的 另 一 个 重要 组 件 , 表示 数据 集 的 分 

布 式 集合 ， 开 放 了 可 以 在 集群 上 并 行 执行 的 各 种 操作 。SparkContext 公开 了 各 种 函 

数 来 从 HDFS 或 本 地 文件 系统 或 Scala 集合 加 载 数据 ， 最 后 创建 一 个 RDD 来 进行 

诸如 上 映射、 过滤、 联合 和 持久 化 等 各 种 操作 。RDD 还 在 org.apache.spark. rdd.* 包 中 

定义 了 一 些 有 用 的 子 类 ， 如 使 用 键 / 值 对 的 PairRDDFunctions， 使 用 Hadoop 序列 文 

件 的 SequenceFileRDDFunctions， 使 用 RDD 双 精 度 的 DoubleRDDFunctions. 7EJri 

续 章 节 中 将 进一步 了 解 RDD。 

org.apache.spark.annotation: 这 里 包含 在 Spark API 中 使 用 的 注释 ,这 是 内 部 Spark 

包 , 建议 在 开发 自 定义 Spark 作业 时 不 要 使 用 此 包 中 定义 的 注释 。 此 包 中 定义 的 

三 个 主要 注释 如 下 。 

> DeveloperAPI: 所 有 标记 为 DeveloperAPI 的 API /方法 都 表示 预先 使 用 ， 意 
味 着 用 户 可 以 自由 扩展 和 修改 默认 功能 ,这 些 方法 可 能 在 Spark 的 下 一 次 要 
版 本 或 主要 版 本 中 被 更 改 或 删除 。 

> ”Experimental: 所 有 标记 为 Experimental 的 函数 / API 都 不 被 Spark 正式 采用 ， 
只 暂时 在 特定 版 本 中 引入 。 这 些 方法 可 能 在 下 一 次 要 或 主要 版 本 中 被 更 改 
或 删除 。 

>  AlphaComponent: 仍 在 由 Spark 社区 测试 的 函数 /API 被 标记 为 AlphaComponent。 
这 些 方法 不 推荐 于 生产 中 使 用 ， 可 以 在 下 一 次 要 或 主要 版 本 中 被 更 改 或 
删除 。 

org.apache.spark.broadcast: 这 是 最 重要 的 包 之 一 ,开发 人 员 经 常 在 其 自 定 义 Spark 

作业 中 使 用 它 。 该 包 提供 了 用 于 在 Spark 作业 之 间 共 享 只 读 变量 的 API. 一 旦 变 

量 被 定义 和 广播 ， 它 们 就 不 能 被 改变 。 跨 集群 广播 变量 和 数据 是 一 项 复杂 的 任 











第 6 章 熟悉 Spark “119 。 


务 ， 需 要 确保 使 用 有 效 的 机 制 ， 以 提高 Spark 作业 的 整体 性 能 ， 并 且 不 会 成 为 开 
销 负担 。 

Spark 提供 两 种 不 同类 型 的 广播 一 一 HttpBroadcast 和 TorrentBroadcast 实现 。 
HttpBroadcast 广播 利用 HTTP 服务 器 从 Spark 驱动 程序 获取 /检索 数据 。 在 这 种 
机 制 中 ， 广 播 数据 通过 在 驱动 程序 本 身 运 行 的 HTTP 服务 器 获取 ， 并 进一步 存 
储 在 执行 器 块 管理 器 中 以 用 于 更 快 的 访问 。 TorrentBroadcast 广播 (也 是 广播 的 
默认 实现 ) 维护 其 自己 的 块 管理 器 。 访 问 数据 的 第 一 个 请 求 ， 调 用 它 自己 的 块 
管理 器 ， 如 果 没 有 找到 ， 则 从 执行 器 或 驱动 程序 中 以 块 的 形式 获取 数据 。 
TorrentBroadcast 广播 工作 于 BitTorrent 原理 基础 上 , 并 确保 驱动 程序 不 是 获取 共 
享 变 量 和 数据 的 瓶颈 。Spark 还 提供 了 累加 器 ， 它 像 广播 一 样 工 作 ， 不 过 提供 了 
可 在 Spark 作业 之 间 共 享 的 可 更 新 变量 , 但 存在 一 些 限制 。 可 以 参考 https://spark. 
apache.org/docs/1.5.1/api/scala/index.html#org.apache.spark.Accumulator. 
org.apache.spark.io: 提供 了 各 种 压缩 库 的 实现 ,可 以 在 块 存储 级 别 使 用 ， 整 个 包 
被 标记 为 Developer API， 因 此 开发 人 员 可 以 扩展 和 提供 自己 的 自 定 义 实现 。 默 
认 情 况 下 ， 它 提供 三 种 实现 一 一 LZ4、LZF 和 Snappy. 
org.apache.spark.scheduler: 提供 了 各 种 调度 程序 库 ， 这 有 助 于 作业 调度 ， 跟 踪 
和 监视 ， 定 义 了 有 向 非 循环 图 (DAG) 调度 器 (http://en.wikipedia.org/wiki/ 
Directed_acyclic_graph) 。Spark DAG 调度 程序 定义 面向 阶段 的 调度 ， 其 中 ， 它 
跟踪 每 个 RDD 的 完成 和 每 个 阶段 的 输出 ， 然 后 计算 DAG, DAG 被 进一步 提交 
到 底层 的 org.apache.spark.scheduler.TaskSchedulerAPI， 这 个 API 在 集群 上 执行 。 
org.apache.spark.storage: 提供 了 用 于 结构 化 、 管 理 和 最 终 持久 存储 在 RDD 中 数 
据 块 的 API， 还 保持 对 数据 的 跟踪 并 确保 数据 被 存储 在 内 存 中 ， 或 者 内 存 已 满 
时 数据 被 刷新 到 底层 的 持久 存储 区 域 。 

org.apache.spark.util: 用 于 在 Spark API 之 间 执 行 通用 函数 的 实用 程序 类 。 例 如 ， 
它 定义 了 MutablePair， 其 可 以 用 来 替代 Scala 的 Tuplg2， 区 别 是 MutablePair 是 
可 更 新 的 ， 而 Scala 的 Tuple2 Æ. org.apache.spark.util 有 助 于 优化 内 存 和 最 小 
化 对 象 分 配 。 





下 一 节 将 深入 Spark 执行 模型 ， 还 将 讨论 其 他 Spark 组 件 。 


6.2.4 


Spark 的 执行 模型 一 一 主管 -工作 者 视图 


Spark 从 根本 上 实现 了 给 定 代码 段 在 分 布 式 内 存 中 的 执行 。 在 6.2.3 节 讨 论 了 Spark 


WAH 











各 个 层 , 下面 还 会 讨论 其 主要 组 件 , 它们 被 用 于 配置 Spark 集群 ， 同 时 将 用 于 提 
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交 和 执行 Spark 作业 。 

以 下 是 设置 Spark 集群 或 提交 Spark 作业 时 涉及 的 高 级 组 件 。 

O Spark 驱动 程序 .这 是 客户 端 程序 ， 它 定义 了 SparkContext。 定 义 所 提交 作业 的 
环境 /配置 和 依赖 性 的 任何 作业 的 入 口 点 是 SparkContext。 它 连接 到 集群 管理 器 ， 
并 请 求 资源 以 进一步 执行 作业 。 
集群 管理 器 /资源 管理 器 / Spark 主机 : 集群 管理 器 管理 和 分 配 所 需 的 系统 资源 到 
Spark 作业 。 此 外 ， 它 协调 和 跟踪 集群 中 的 活 / 死 节点 ， 能 够 执行 由 驱动 程序 在 
工作 节点 〈 也 称 为 Spark 工作 者 ) 上 提交 的 作业 ， 最 终 跟踪 并 显示 由 工作 节点 运 
行 的 各 种 作业 的 状态 。 

Spark 工作 者 /执行 者 :工作 者 实际 执行 Spark 驱动 程序 提交 的 业务 逻辑 。Spark 
工作 者 是 抽象 的 ， 并 由 集群 管理 器 动态 分 配给 Spark 驱动 程序 以 执行 提交 的 
作业 。 

6.2 显示 了 Spark 的 高 级 组 件 和 主管 -工作 者 视图 。 


Submit the code (JAR files) and configure dependencies to executors for further execution 
Allocate the resources and instructs 
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L— Submit the code (JAR files) and configure dependencies to executors for further execution J 











图 6.2 


图 6.2 描述 了 设置 Spark 集群 所 涉及 的 各 种 组 件 , 相 同 的 组 件 也 负责 执行 Spark 作业 。 

虽然 所 有 组 件 都 很 重要 ， 但 是 这 里 主要 讨论 集群 /资源 管理 器 ， 因 为 它 定 义 了 部 署 模 
型 和 资源 并 分 配给 用 户 提交 的 作业 。 

Spark 启用 并 提供 了 灵活 性 来 选择 资源 管理 器 。 截 至 Spark 1.5.1 版 本 ， 以 下 是 Spark 
支持 的 资源 管理 器 或 部 署 模 型 。 


-~ 
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Apache Mesos: Apache Mesos (http://mesos.apache.org/) 是 一 个 集群 管理 器 ， 可 
以 在 分 布 式 应 用 程序 或 框架 之 间 提 供 高 效 的 资源 隔离 和 共享 。 它 可 以 在 动态 共 
享 池 节点 上 运行 Hadoop, MPI, Hypertable, Spark 和 其 他 框架 。Apache Mesos 
和 Spark 彼此 密切 相关 (但 它们 并 不 相同 )。 事情 要 回溯 到 2009 年 ,当时 Mesos 
已 经 就 绪 ， 有 了 可 以 在 Mesos 上 开发 的 想法 /框架 的 讨论 ， 于 是 促成 了 Spark 的 
诞生 。 

有 关 在 Amazon Mesos 上 运行 Spark 作业 的 更 多 信息 ， 请 参阅 http://spark. 
apache.org/docs/latest/ running-on-mesos.html。 

















Hadoop YARN: Hadoop 2.0 Chttp://tinyurl.com/Isk4uat) 也 称 为 YARN， 是 架构 
的 一 个 完整 变化 。 它 被 作为 一 个 通用 的 集群 计算 框架 ， 负 责 分 配 和 管理 执行 不 
同 工 作 或 应 用 程序 所 需 的 资源 。Hadoop YARN 引入 了 例如 资源 管理 器 (RM) 、 
节点 管理 器 CNM) 和 应 用 程序 主 服务 器 CAM) 这 些 新 的 守护 进程 服务 ， 它 们 
负责 管理 集群 资源 、 单 个 节点 和 相应 的 应 用 程序 。YARN 还 为 应 用 程序 开发 人 
员 介 绍 了 特定 的 接口 /指南 ， 它 们 可 以 在 YARN 集群 上 实现 /跟踪 并 提交 或 执行 
其 自 定义 应 用 程序 。Spark 框架 实现 了 YARN 公开 的 接口 ， 并 提供 了 在 YARN 
上 执行 Spark 应 用 程序 的 灵活 性 。Spark 应 用 程序 可 以 在 YARN 中 以 下 两 种 不 同 
的 模式 执行 。 
> YARN 客户 端 模式 : 在 此 模式 下 ，Spark 驱动 程序 在 客户 端 计算 机 (用 于 提 
交 作 业 的 计算 机 ) ERIT, YARN 应 用 程序 主 服 务 器 仅 用 于 从 YARN 请 求 
资源 。 所 有 日 志和 系统 输出 (println〉 都 打印 在 同一 控制 台 上 ， 用 于 提交 作业 。 
> YARN 集群 模式 : 在 此 模式 下 ，Spark 驱动 程序 在 YARN 应 用 程序 主 进程 
内 部 运行 ， 该 进程 由 集群 上 的 YARN 进一步 管理 ， 客 户 端 可 以 在 提交 应 用 
程序 后 立即 离开 。 WE, Spark 驱动 程序 在 YARN 集群 上 执行 ,应 用 程序 日 
志 / 系 统 输出 (println〉 也 写 入 由 YARN 维护 的 日 志文 件 中 ， 而 不 是 在 用 于 
提交 Spark 作业 的 机 器 上 。 





有 关 在 YARN 上 执行 Spark 应 用 程序 的 更 多 信息 ， 请 参阅 http://spark. 
apache.org/docs/latest/running-on-yarn.html. 


Standalone mode〈 独 立 模 式 ) : Core Spark 的 分 发 包含 了 创建 独立 、 分 布 式 和 容 
错 集群 所 需 的 API， 无 须 任何 外 部 或 第 三 方 库 或 依赖 关系 。 
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O Local mode (本 地 模式 ) : 本 地 模式 不 应 与 独立 模式 混淆 。 在 本 地 模式 下 ，Spark 
作业 可 以 在 本 地 机 器 上 执行 而 不 需要 任何 特殊 的 集群 设置 ， 只 需 传递 local [N] 
作为 主 URL， 其 中 对 是 并 行 线程 的 数量 。 

我 们 将 很 快 实现 这 样 的 执行 模型 ,但 在 此 之 前 ,先进 入 下 一 节 ， 了解 Spark 的 最 重要 

的 组 件 之 一 一 一 弹性 分 布 式 数据 集 (RDD)。 


63 ”弹性 分 布 式 数据 集 (RDD) 


在 本 节 中 ， 将 讨论 与 RDD 相关 的 架构 、 动 机 、 特 性 和 其 他 重要 概念 ， 还 将 简要 地 讨 
论 Spark 和 由 RDDs 公开 的 各 种 API /函数 应 用 的 实现 方法 。 

Hadoop 和 MapReduce 等 框架 被 广泛 应 用 于 并 行 和 分 布 式 数据 处 理 。 毫 无 疑问 ， 这 些 
框架 为 分 布 式 数据 处 理 引 入 了 一 种 新 的 范式 ， 在 容错 方式 (不 丢失 单个 字 节 ) 方面 也 是 如 
此 。 然 而 ,这 些 框架 确实 有 一 些 限制 例如，Hadoop 不 适用 于 需要 迭代 数据 处 理 的 问题 语 
句 ， 因 为 在 递归 函数 或 机 器 学 习 算法 中 有 关 用 例 数据 需要 在 内 存 中 进行 计算 。 

对 于 上 述 情况 引入 了 一 个 新 的 范式 RDD, 其 包含 类 似 Hadoop 系统 的 所 有 特性 , 例如 ， 
分 布 式 处 理 、 容 错 等 ， 但 实质 上 将 数据 保持 在 内 存 中 并 在 集群 节点 上 进行 分 布 式 内 存 数据 
处 理 。 

RDD 定义 如 下 。 

RDD 是 Spark 框架 的 核心 组 件 。 作 为 一 个 独立 概念 ， 它 是 由 美国 加 州 大 学 伯克利 分 
校 开发 的 ， 首 先 在 Storm 中 得 以 实施 并 显示 出 其 使 用 价值 和 威力 。 

RDD 为 并 行 和 分 布 式 数据 处 理 提供 了 不 可 变数 据 集 的 内 存 表 示 。 RDD 是 一 个 底层 数 
据 存 储 不 明确 的 抽象 屋 ， 提 供 内 存 数据 表达 的 核心 功能 ， 该 功能 服务 于 数据 对 象 的 存储 
和 检索 .RDD 被 进一步 扩展 以 呈现 诸如 图 形 或 关系 结构 或 流 数据 等 各 种 类 型 的 数据 结构 。 

下 面 继续 讨论 RDD 的 重要 特性 。 

1. 容错 


容错 不 是 一 个 新 的 概念 , 已 在 诸如 Hadoop、 键 / 值 存储 等 各 种 分 布 式 处 理 系统 中 实现 。 
这 些 系统 利用 数据 复制 的 策略 来 实现 容错 。 它 们 在 群集 中 的 各 个 节点 上 复制 和 维护 同一 
数据 集 的 多 个 副本 ， 或 者 维护 在 原始 数据 集 上 所 发 生 更 新 的 日 志 ， 并 立即 在 机 器 /节点 上 
应 用 同一 数据 集 。 这 种 架构 /过 程 适用 于 基于 磁盘 的 系统 ， 但 是 相同 机 制 对 于 数据 密集 型 
工作 负载 或 基于 内 存 的 系统 是 无 效 的， 因为 首先 它们 需要 在 集群 网 络 上 复制 大 量 数据 ， 
其 带宽 远 低 于 随机 访问 内 存 的 速度 ， 其 次 ， 它 们 导致 大 量 的 存储 开销 。 
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RDD 的 目标 是 解决 现 有 的 挑战 ， 并 且 为 已 经 在 存储 器 中 加 载 和 处 理 的 数据 集 提 供 有 
效 的 容错 机 制 。 

RDD 引入 了 一 个 用 于 容错 的 新 概念 ， 并 提供 了 基于 变换 的 粗 粒度 接口 。 现 在 ，RDD 
不 会 复制 数据 或 保留 更 新 日 志 ， 而 是 跟踪 应 用 于 特定 数据 集 ( 也 称 为 数据 沿袭 ) 的 转换 
(例如 映射 、 规 约 、 连 接 等 )。 

这 里 形成 一 种 容错 的 有 效 机 制 ， 在 其 中 有 任何 分 区 丢失 的 情况 下 ，RDD 仍 具 有 足够 
的 信息 以 通过 对 原始 数据 集 应 用 相同 的 转换 集合 来 导出 相同 的 分 区 。 此 外 ， 这 种 计算 是 
并 行 的 ， 涉 及 在 多 个 节点 上 的 处 理 ， 因 此 与 其 他 分 布 式 数据 处 理 框架 所 使 用 的 开支 不 菲 
的 复制 相 比 ， 重 新 计算 非常 快速 有 效 。 

2. 存储 

RDD 的 架构 /设计 便于 利用 在 节点 集群 上 分 布 和 分 区 的 数据 。 RDD 保存 在 系统 内 存 
中 ， 同 时 还 提供 可 用 于 将 RDD 存储 在 磁盘 或 外 部 系统 上 的 操作 。Spark 及 其 核心 软件 包 
默认 提供 API 来 处 理 驻 留 在 本 地 文件 系统 和 HDFS 中 的 数据 ， 还 有 其 他 供应 商 和 开源 社 
区 为 诸如 MongoDB、DataStax、Elasticsearch 等 外 部 存储 系统 中 的 RDD 提供 适当 的 包 和 
API。 











以 下 是 一 些 可 用 于 存储 RDD 的 函数 。 

口 saveAsTextFile (path) : 将 RDD 的 元 素 写 入 本 地 文件 系统 、HDFS、 其 他 映射 
或 装载 于 网 络 驱动 器 中 的 文本 文件 。 

Q saveAsSequenceFile (path) : 这 将 RDD 的 元 素 作为 Hadoop 序列 文件 写 入 本 地 
文件 系统 、HDFS、 其 他 映射 或 挂 载 的 网 络 驱动 器 中 。 这 可 以 在 实现 Hadoop 的 
可 写 界面 的 键 / 值 对 的 RDD 上 使 用 。 

口 saveAsObjectFile (path) : 使 用 Java 序列 化 机 制 将 数据 集 的 元 素 写 入 给 定 路 径 ， 
然后 可 以 使 用 SparkContext.objectFile (path) 加 载 。 





























KSS 可 以 参考 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache. 
spark.rdd.RDD ( Scala 版 本 ) 或 http://spark.apache.org/docs/latest/api/scala/ 
index.html # org.apache.spark.api.java.JavaRDD (Java 版 )， 以 获取 有 关 RDD 
公开 的 API 的 更 多 信息 。 


3. 持久 性 


RDD 中 的 持久 性 也 称 为 RDD 的 缓存 ， 可 以 通过 调用 <RDD> .persist(StorageLevel) 或 
<RDD> .cache() 来 完成 。 默认 情况 下 ，RDD 持久 存储 在 内 存 中 默认 为 cache), fH 
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也 在 磁盘 或 其 他 外 部 系统 提供 持久 性 ， 这 是 由 persist0 函 数 及 其 参数 的 StorageLevel 类 来 
定义 和 提供 的 (https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark. 
storage.StorageLevel$ ) 。 

StorageLevel 类 被 注释 为 DeveloperApi()， 可 以 通过 扩展 来 提供 持久 性 的 自 定义 








实现 














缓存 或 持久 性 是 用 于 秋 代 算法 和 快速 交互 的 关键 工具 。 每 当 在 RDD 上 调用 persist() 
时 ， 每 个 节点 将 其 相关 联 的 分 区 和 计算 存储 在 内 存 中 ， 并 且 在 所 计算 数据 集 的 其 他 指令 
中 进一步 重用 它们 。 反 过 来 这 也 使 未 来 的 指令 更 快 。 

4. 洗 牌 

Hek (shuffling) 是 Spark 中 的 另 一 个 重要 概念 。 它 在 集群 之 间 重 新 分 布 数据 ， 以 便 
在 不 同 分 区 之 间 进 行 不 同 的 分 组 。 这 是 一 个 代价 不 菲 的 操作 ， 因 为 它 涉及 以 下 活动 ; 

口 ” 跨 执行 程序 和 节点 复制 数据 。 

D 创建 新 分 区 。 

O ”在 集群 中 重新 分 配 新 创建 的 分 区 。 

在 org.apache.spark.rdd.RDD 和 org.apache.spark.rdd.PairRDDFunctions 中 定义 了 一 些 
转换 操作 ， 它 们 初始 化 洗 牌 进程 。 这 些 操作 包括 : 

口 RDD .repartition0)， 这 将 重新 分 区 节点 集群 中 的 现 有 数据 集 。 

口 RDD.coalesce0， 这 将 现 有 数据 集 重新 分 区 为 较 小 数量 的 给 定 分 区 。 

QU “所 有 以 ByKey 结 尾 的 操作 ( 除 计数 操作 外 ), Bl rl PairRDDFunctions.reducebyKey() 

BK groupByKey. 

O 所 有 连接 操作 , 如 PairRDDFunctions.join()#% PairRDDFunctions.cogroup() 操 作 。 

洗 牌 是 一 个 代价 高 昂 的 操作 ， 因 为 它 涉及 磁盘 WO、 数据 序列 化 和 网 络 WO， 但 有 一 
些 配 置 可 以 帮助 调整 和 性 能 优化 。 有 关 完 整 的 参数 列表 请 参阅 https://spark.apache.org/ 
docs/latest/configuration.html#shuffle-behavior， 这 些 参数 可 用 于 优化 洗 牌 操作 。 

&C 参考 https://www.cs.berkeley.edu/-matei/papers/2012/nsdi spark.pdf, vA #RIR 

RDD 的 更 多 信息 。 











6.4 编写 执行 第 一 个 Spark 程序 


在 本 节 中 ， 将 安装 /配置 并 使 用 Java 和 Scala 编写 第 一 个 Spark 程序 。 
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6.4.1 硬件 需求 


Spark 支持 各 种 硬件 和 软件 平台 ， 可 以 部 署 在 商用 硬件 上 ， 也 支持 高 端 服务 器 上 的 章 
署 。 可 以 在 云 上 或 企业 内 部 部 署 Spark 集群 。 尽管 没有 单一 的 配置 或 标准 , 但 具有 以 下 笔 
记 本 电脑 /桌面 /服务 器 系统 配置 建议 可 以 指导 用 户 来 达到 Spark 的 要 求 ， 创 建 和 执行 本 书 
中 提供 的 Spark 示例 。 

Q RAM: 8GB. 

Q CPU: 双核 或 四 核 。 

O 磁盘 : SATA 驱动 器 ， 其 容量 为 300 一 500 GB， 转 速 为 15k RPM. 

O ”操作 系统 : Spark 支持 各 种 Linux (例如 Ubuntu, HP-UX, RHEL 等 ) 和 Windows 

的 平台 。 建 议 使 用 Ubuntu 来 部 署 和 执行 示例 。 

Spark 核心 以 Scala 编写 ， 但 它 提 供 了 多 种 不 同 语言 的 开发 API， 例 如 Scala、Java 和 
Python, 以 便 开发 人 员 可 以 选择 编码 工具 。 依赖 的 软件 库 引 用 可 能 会 根据 所 用 编程 语言 而 
有 所 不 同 , 但 仍然 有 一 些 常 见 的 软件 配置 Spark 集群 ,然后 是 用 于 开发 Spark 作业 的 语言 
特定 软件 。 

在 下 一 节 中 ， 将 讨论 用 Scala 编写 /执行 Spark 作业 和 在 Ubuntu 操作 系统 上 使 用 Java 
所 需 的 软件 安装 步 又。 


642 ”基本 软件 安装 


在 本 节 中 , 将 讨论 安装 基本 软件 所 需 的 各 种 步骤 , 这 将 有 助 于 开发 和 执行 Spark 工作 。 
1. Spark 
可 执行 以 下 步骤 来 安装 Spark: 
(1) 从 http:/d3kbcqa49mib13.cloudfront net/spark-1.5.1-bin-hadoop2.4.tgz 下 载 Spark 
压缩 包 文件 。 
(2) 在 本 地 文件 系统 上 创建 一 个 新 目录 spark-1.5.1， 并 将 Spark 压缩 包 文件 解压 缩 
到 此 目录 中 。 
G) f£ Linux Shell 上 执行 以 下 命令 以 将 SPARK HOME 设置 为 环境 变量 : 
export SPARK HOME-«Path of Spark install Dir» 


(4) 现在 SPARK. HOME 目录 ， 应 该 类 似 于 图 6.3 所 示 。 














“126 > 实时 大 数据 分 析 一 一 基于 Storm. Spark 技术 的 实时 应 用 





umit&Tocalhost $ 1s -Ttr 





ec2-user 4096 Sep 24 06:12 sbin 

1 ec2-user ec2-user 120 Sep 24 06:12 RELEASE 

3 ec2-user ec2-user 4096 Sep 24 06:12 R 
ec2-user — 4096 sep 24 06:12 python 

1 ec2-user ec2-user 22559 Sep 24 06:12 NOTICE 

3 ec2-user ec2-user 4096 Sep 24 06:12 examples 

X 3 ec2-user ec2-user 4096 Sep 24 06:12 data 

1 ec2-user ec2-user 960539 Sep 24 06:12 CHANGES. txt 

-rw-r--r-- 1 ec2-user ec2-user 3593 Sep 24 06:12 README.md 

ec2-user 50972 Sep 24 06:12 LICENSE 

x ec2-user 4096 Sep 24 06:12 lib 

drwxr-xr-x 3 ec2-user ec2-user 4096 Sep 24 06:12 ec? 

drwxr-xr-x 2 ec2-user ec2-user 4096 Sep 24 06:12 conf 

drwxr-xr-x 2 ec2-user ec2-user 4096 Sep 24 06:12 bin 

Isumit&localhost $ 











图 63 


2. Java 
可 执行 以 下 步骤 来 安装 Java: 
(1) M http://www.oracle.com/technetwork/java/javase/install-linux-self-extracting-138783. 
html 下 载 并 安装 Oracle Java 7. 
(2) 在 Linux Shell 上 执行 以 下 命令 ,将 JAVA_HOME 设置 为 环境 变量 : 


export JAVA HOME=<Path of Java install Dir> 


3. Scala 
可 执行 以 下 步骤 来 安装 Scala: 
CIO 从 http://downloads. typesafe.com/scala/2.10.5/scala-2.10.5.tgz? ga-1.7758962. 
1104547853.1428884173 T 3X Scala 2.10.5 压缩 包 文 件 。 
(2) 在 本 地 文件 系统 上 创建 一 个 新 目录 Scala 2.10.5， 并 将 Scala 压缩 包 文件 解压 缩 
到 此 目录 中 。 
(3) 在 Linux Shell 上 执行 以 下 命令 , 将 SCALA_HOME 设置 为 环境 变量 , 并 将 Scala 
编译 器 添加 到 系统 变量 $ PATH 里 : 
export SCALA HOME=<Path of Scala install Dir> 
export PATH = $PATH:$SCALA_HOME/bin 
(4) 执行 如 图 6.4 所 示 的 命令 ， 以 确保 Scala 运行 时 和 Scala 编译 器 可 用 ， 版 本 为 
2.10.x。 








sumit@local : scala -version 

Scala code runner version 2.10.5 一 Copyright 2002-2013, LAMP/EPFL 
sumitBlocal : scalac -version 

Scala compiler version 2,10,5 一 Copyright 2002-2013, LAMP/EPFL 
sumitBlocal : M 





图 6.4 
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g Spark 1.5.1 支持 Scala 的 2.10.5 版 本 ， 因 此 建议 使 用 与 本 书 相同 的 版 本 ， 以 
避免 由 于 库 的 不 匹配 而 导致 运行 时 异常 。 


4. Eclipse 
可 执行 以 下 步 又 来 安装 Eclipse: 
CD 根据 硬件 配置 ， 从 http//www.eclipse.org/downloads/packages/eclipse-ide-java-ee- 
developers/lunasr2 下 载 Eclipse Luna (4.4)， 如 图 6.5 所 示 。 





© Eclipse IDE for Java EE Developers 





Download Links 
Windows 32-bit 
Windows 64-bit 
Mac OS X (Cocoa) 32-bit 
Mac OS X (Cocoa) 64-bit, 
Linux 32-bit 
Linux 64-bit 







Package Description 


Tools for Java developers creating Java EE and Web applications, including a Java IDE, tools 
for Java EE, JPA, JSF, Mylyn. EGit and others. 










* Data Tools Platform 





* Eclipse Git Team Provider 
* Eclipse Java Development Tools 


* Eclipse Java EE Developer Tools 





* JavaScript Development Tools » Checksums 





图 6.5 


(2) 在 Eclipse 中 安装 Scala 的 IDE， 以 便 在 Eclipse (http://scala-ide.org/download/ 
current.html) 中 编写 和 编译 Scala 代码 。 
现在 已 经 完成 了 安装 所 有 必需 的 软件 ， 继 续 配 置 Spark 集群 。 


6.4.3 配置 Spark 集群 


配置 Spark 集群 的 第 一 步 是 确定 适当 的 资源 管理 器 。 在 Spark 的 执行 模型 一 一 主管 - 
工作 者 视图 部 分 讨论 了 Yarn. Mesos 和 Standalone 各 种 资源 管理 器 。Standalone 是 开发 最 
优选 的 资源 管理 器 ， 因 为 它 既 简单 、 快 速 又 不 需要 安装 其 他 组 件 或 软件 。 

此 外 ， 还 将 为 所 有 Spark 示例 配置 Standalone 资源 管理 器 ， 有 关 Yarn 和 Mesos 的 更 
多 信息 ， 请 参阅 Spark 的 执行 模型 一 一 主管 -工作 者 视图 部 分 的 内 容 。 

执行 以 下 步 又 来 使 用 Spark 二 进 制 文件 启动 独立 的 集群 

(1) 设置 Spark 集群 的 第 一 步 是 启动 主 节 点 ， 它 将 跟踪 和 分 配 系统 的 资源 。 打 开 

Linux Shell 并 执行 以 下 命令 : 


$SPARK_HOME/sbin/start-master.sh 
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OD 上 述 命令 将 启动 主 节点 , 它 还 启用 了 一 个 UI， 此 Spark UI 监视 Spark 集群 中 的 
节点 /作业 ， 该 集群 访问 地 址 为 http://<host>:8080/， 其 中 ，<host> 是 运行 主 节点 计算 机 的 
域名 。 

G) 打开 工作 节点 ， 它 将 执行 Spark 作业 。 在 同一 Linux Shell 上 执行 以 下 命令 : 


$SPARK_HOME/bin/spark-class org.apache.spark.deploy.worker.Worker 
<Spark-Master> & 


(4) 在 上 面 的 命令 中 ， 将 <Spark-Master> 蔡 换 为 Spark URL， 它 显示 在 Spark UI Iii 
部 ， 位 于 Spark 主 节点 旁边 。 前 面 的 命令 将 在 后 台 启 动 Spark 工作 进程 ， 该 情况 也 将 在 
Spark UI 中 及 时 呈现 出 来 。 
图 6.6 的 屏幕 截图 里 显示 了 Spark UI 中 三 个 不 同 的 部 分 ， 其 中 提供 了 以 下 信息 。 
Q 工作 进程 (workers) : 报告 工作 节点 的 运行 状况 ， 即 该 节点 是 活动 还 是 停止 ， 
还 针对 该 特定 工作 节点 执行 的 各 种 作业 提供 深入 的 状态 和 详细 日 志 查 询 。 
O 运行 应 用 (Running Applications) : 显示 集群 中 当前 正在 执行 的 应 用 程序 ， 并 提 
供 对 应 用 日 志 的 深入 查看 。 
O SERM (Completed Applications) : 与 运行 应 用 的 功能 相同 。 唯 一 的 区 别 在 于 
这 里 所 显示 作业 已 经 完成 。 


Spaik® ,.. Spark Master at@park://ip-10-166-191-242:70 
m 242 6066 [vate mode) 















































Acre state Coms Memory 
ANE 8 
Running Applicat 
Application 10 Name res Memory per Ne Submitted Time state Dur 
‘Completed Applications 
pplication 10 Name n mory per Node. Submities Time user Sue Duration 


至 此 ， 大 功 告 成 ! Spark 集群 已 经 启动 并 运行 ， 可 以 使 用 一 个 工作 节点 执行 Spark 作 
Mk. 下面 继续 用 Scala 和 Java 编写 第 一 个 Spark 应 用 程序 ,并 在 新 创建 的 集群 上 进一步 执 
行 它 。 
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6.4.4 用 Scala 编写 Spark 作业 
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在 本 节 中 将 在 Scala heal Spark 作业 ， 还 将 在 新 创建 的 Spark 集群 上 执行 这 


个 作业 并 进一步 分 析 结 


这 是 本 书 的 第 一 个 adt 作业 ， 所 以 将 尽 可 能 简单 ， 将 使 用 2015 年 8 月 的 芝加哥 犯 
罪 数 据 集 ， 该 数据 集 同 在 第 5 章 “ 熟 悉 Kinesis” 中 的 “创建 Kinesis 流 生产 者 ”部 分 的 内 


容 是 一 致 的 ， 并 将 计算 2015 年 8 月 报告 的 犯罪 数量 。 


执行 以 下 步骤 用 Scala 语言 为 Spark 作业 编写 代码 ， 以 汇总 2015 4E 8 月 间 的 犯罪 


数量 : 


A) 打开 Eclipse 并 创建 一 个 名 为 Spark-Examples 的 Scala MA ON 


I8 Package Explorer 53 


@ RealTimeAnalytics-Kinesis Select a Scala Installation for your projects 
4 © Spark-Examples 
B src 


见 图 6.7)。 










4 "Bh Scala Library container [2.10.5 i Fixed Scala Installation: 2.10.5 (bundled) 
ŠB scale-library jar - CAmyWork\ins Fixed Scala Installation: 2.11.6 (bundled) 
£i scala-reflectjar - A 
G8 scala-actorjar - € 











d scala-swingjar ins 
BBA JRE System Library [JavaSE-1.7] 加 





图 6.7 


(2) 展开 新 创建 的 项 目 ， 并 将 Scala 库容 器 的 版 本 修改 为 2.10。 


Spark 使 用 的 Scala 库 的 版 本 和 开发 /部 署 的 自 定 义 作 业 是 相同 的 。 









Cancel 

















这 样 做 是 为 了 确保 


(3) 打开 项 目 Spark-Examples 的 属性 项 ， 并 添加 与 Spark 发 行 版 里 所 有 打包 库 的 依 


赖 关 系 ， 可 在 SSPARK_HOME/lib 中 找到 有 关内 容 。 


(4) 创建 一 个 名 为 chaptersix 的 Scala 包 ， 在 这 个 包 中 使 用 ScalaFirstSparkJob 的 名 


称 定义 一 个 新 的 Scala 对 象 。 


(5) 在 Scala 对 象 中 定义 一 个 主 方法 ， 并 导入 SparkConf fll SparkContext。 


(6) 将 以 下 代码 添加 到 ScalaFirstSparkJob 的 main 方法 中 : 


object ScalaFirstSparkJob { 
def main(args: Array[String]) { 
println("Creating Spark Configuration") 
//Create an Object of Spark Configuration 
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val conf = new SparkConf () 

//Set the logical and user defined Name of this Application 

conf.setAppName ("My First Spark Scala Application") 

println("Creating Spark Context") 

//Create a Spark Context and provide previously created 

//Object of SparkConf as an reference. 

val ctx - new SparkContext (conf) 

//Define the location of the file containing the Crime Data 

val file - "file:///home/ec2-user/softwares/crime-data/ 
Crimes -Aug-2015.csv"; 

println("Loading the Dataset and will further process it") 

//Loading the Text file from the local file system or HDFS 

//and converting it into RDD. 

//SparkContext.textFile(..) - It uses the Hadoop's 

//TextInputFormat and file is broken by New line Character. 

//Refer to http://hadoop.apache.org/docs/r2.6.0/api/org/ 
apache/hadoop/mapred/TextInputFormat.html 

//The Second Argument is the Partitions which specify the 
parallelism. 

//It should be equal or more then number of Cores in the 
cluster. 


val logData = ctx.textFile (file, 2) 


//Invoking Filter operation on the RDD, and counting the 
number of lines in the Data loaded in RDD. 

//Simply returning true as "TextInputFormat" have already 
divided the data by "\n" 

//So each RDD will have only 1 line. 

val numLines = logData.filter (line => true) .count () 

//Finally Printing the Number of lines. 

println("Number of Crimes reported in Aug-2015 = " + 
numLines) 





现在 代码 部 分 已 经 完成 ， 用 Scala 编写 的 第 一 个 Spark 作业 已 准备 好 执行 。 
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QO 按照 代码 中 提供 的 注释 来 了 解 其 功能 。 相同 的 样式 已 被 用 于 本 书 中 给 出 的 其 
他 代码 示例 。 
(7) 现在 从 Eclipse 本 身 将 项 目 导 出 为 jar 文件， 将 其 命名 为 spark-examples.jar， 并 
将 此 jar 文件 保存 在 $ SPARK_HOME 代表 的 根 目录 中 。 
(8) 接 下 来 ， 打 开 Linux 控制 台 ， 转 到 $ SPARK_HOME， 然 后 执行 以 下 命令 : 
$SPARK HOME/bin/spark-submit --class chapter.six. 
ScalaFirstSparkJob --master spark: //ip-10-166-191-242:7077 
spark-examples.jar 


在 上 述 命令 中 ， 应 确保 给 -master 参数 指定 的 值 与 在 Spark UI 上 显示 的 值 相同 。 
QO Spark-submit 是 一 个 应 用 程序 脚本 ， 用 于 将 Spark 作业 提交 到 集群 


(9) 按 Enter 键 并 执行 上 述 命 令 后 ,将 在 控制 台 上 看 到 很 多 活动 (日 志 消 息 )， 最 后 
将 看 到 作业 输出 结果 ， 如 图 6.8 所 示 。 


A0 i2 Sparkoepiey Schade ba on 12 ready for scheduling beginning after reaches minkegtatereckesourcesnatio: 0.0 
“and mit} further procs 


2 euge pare intone 


oat 
pud /Spark 
edvidersasnotingrersinator! Shitting. dam remote daemon 


directory /u aseio78-7c3a-dacs-abt3-7csagt2fffaf 





mt tahacatost $ 





图 6.8 


是 不 是 很 简单 ! 继续 Spark 的 讨论 时 ,读者 会 喜欢 Spark 在 分 布 式 框架 中 创建 、 部 署 
和 运行 作业 来 编写 代码 所 提供 的 便利 和 简洁 。 

完成 的 作业 也 可 以 在 Spark UI 中 查看 。 

6.9 显示 了 第 一 个 Scala 作业 在 UI 上 的 状态 。 现 在 继续 前 进 ， 使 用 Spark Java API 
开发 同一 个 作业 。 
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Spark’ ısı Spark Master at spark://ip-10-166-191-242:7077 


URL: spark 
REST URL: 








Workers 

Worker ia Ademas sue cors Memory 
wolker-20151105085209-10 166 19242-49941 1165 AINE ausen 28.5 GB (0.0 8 Usec 
Running Applications 

Application 10 Name cores Memory per Node Submitted Time User state Duration 


Completed Applications 
Application 10 Name Come Duration. 











6.4.5 FA Java 编写 Spark 作业 





执行 以 下 步骤 来 用 Java 语言 为 Spark 作业 编写 代码 , 以 汇总 2015 4E 8 月 的 犯罪 数量 : 


(1) 打开 Spark-Examples Eclipse 项 目 (在 6.4.4 节 已 被 创建 好 )。 


(2) 添加 一 个 名 为 chapter.six.JavaFirstSparkJob 的 新 Java 文件 , 并 添加 以 下 代码 


TBI: 


import org.apache.spark.SparkConf; 

import org.apache.spark.api.java.JavaRDD; 

import org.apache.spark.api.java.JavaSparkContext; 
import org.apache.spark.api.java.function.Function; 


public class JavaFirstSparkJob { 


public static void main(String[] args) ( 
System.out.println("Creating Spark Configuration"); 
// Create an Object of Spark Configuration 
SparkConf javaConf - new SparkConf(); 
// Set the logical and user defined Name of this Application 
javaConf.setAppName ("My First Spark Java Application"); 
System.out.println("Creating Spark Context"); 


// Create a Spark Context and provide previously created 
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) 
(3) 


//Objectx of SparkConf as an reference. 
JavaSparkContext javaCtx = new JavaSparkContext (javaConf) ; 
System. out .printl1n ("Loading the Crime Dataset and will further process 


Tee) 


String file = "file:///home/ec2-user/softwares/crime-data/ Crimes 

-Aug-2015.csv"; 

JavaRDD<String> logData = javaCtx.textFile(file); 

//Invoking Filter operation on the RDD. 

//And counting the number of lines in the Data loaded 

//in RDD. 

//Simply returning true as "TextInputFormat" have already divided the 
data by "An" 

//So each RDD will have only 1 line. 

long numLines = logData.filter(new Function<String, Boolean>() { 

public Boolean call(String s) ( 

return true; 

} 

}) .count (); 

//Finally Printing the Number of lines 

System.out.println("Number of Crimes reported in Aug-2015 = 

"4+numLines) ; 

javactx.close(); 





接 下 来 在 Eclipse 环境 中 编译 前 面 写 好 的 JavaFirstSparkJob, #1% 6.4.4 节 Spark 











Scala 作业 的 执行 步骤 (7). (8) 和 (9) 那样 执行 这 里 的 作业 。 


至 此 


HR 





， 大 功 告 成 ! 分 析 控 制 台 的 输出 , 它 应 该 与 6.4.4 节 所 执行 Scala 作业 的 输出 相同 。 


6.5 故障 排除 提示 和 技巧 




















节 中 ， 将 讨论 故障 排除 提示 和 技巧 ,这 有 助 于 解决 在 使 用 Spark 时 最 常 遇 到 的 
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6.5.1 Spark 所 用 的 端口 数目 


Spark 绑 定 各 个 网 络 端口 以 在 集群 /节点 内 进行 通信 ， 并 将 作业 的 监视 信息 呈现 给 开 
发 人 员 和 管理 员 。 在 有 些 情 况 下 ，Spark 使 用 的 默认 端口 可 能 不 可 用 ， 或 者 可 能 被 网 络 防 
火 墙 阻 塞 ， 这 反 过 来 又 将 导致 对 主管 /工作 者 或 驱动 程序 默认 Spark 端口 的 修改 。 后 面 的 
网 址 提供 了 Spark 使 用 的 所 有 端口 及 其 相关 参数 的 列表 ， 任 何 相 关 更 改 都 应 照 此 配置 
Chttp://spark.apache.org/docs/latest/security.html#configuring-ports-for-network-security ) 。 


6.5.2 ”类 路 径 问题 一 一 类 未 找到 异常 


类 路 径 是 最 常见 的 问题 ， 它 在 分 布 式 应 用 程序 中 频繁 出 现 。 

Spark 及 其 关联 的 作业 在 集群 上 以 分 布 式 方式 运行 。 所 以 ， 如 果 Spark 作业 依赖 于 外 
部 库 ， 那 么 需要 确保 将 它们 封装 到 一 个 单独 的 TAR 文件 中 ， 并 将 其 放 在 一 个 公共 位 置 或 
者 所 有 工作 节点 的 默认 类 路 径 中 ， 或 者 在 SparkConf 本 身 包 含 JAR 文件 的 路 径 定义 : 

val sparkConf = new SparkConf () .setAppName ("myapp") .setJars (<path of Jar 

file»)) 






































6.5.8 ”其 他 常见 异常 


在 本 节 中 ， 将 讨论 架构 师 / 开 发 人 员 在 设置 Spark 或 执行 Spark 作业 时 遇 到 的 一 些 常 
见 错误 /问题 /异常 。 

口 打开 的 文件 过 多 : 这 可 通过 执行 sudo ulimit -n 20000 来 增加 Linux 操作 系统 上 的 
ulimit 取 值 来 解决 。 

口 。 Scala 版 本 :Spark 1.5.1 支持 Scala 2.10, 因此 如 果 框 架 上 部 署 了 多 个 版 本 的 Scala, 
请 确保 所 有 版 本 都 是 相同 的 Scala 2.10。 

Q 独立 模式 下 的 工作 进程 内 存 不 足 ， 这 需要 在 SSPARK_HOME/conf/spark-env.sh 
中 配置 SPARK WORKER MEMORY. 默认 情况 下 , 它 为 工作 程序 提供 1GB 的 
总 内 存 , 不 过 同时 应 该 分 析 并 确保 未 在 工作 进程 节点 上 加 载 或 缓存 过 多 的 数据 。 

O 工作 节点 上 应 用 程序 的 执行 内 存 不 足 : 这 需要 在 SparkConf 中 配置 spark. 
executormemory， 如 下 所 示 : 
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val sparkConf = new SparkConf().setAppName ("myapp") 


-set("spark executor memory","ly") 


上 面 的 提示 将 帮助 用 户 解 决 设置 Spark 集群 的 基本 问题 ,但 当 继 续 深入 时 可 能 会 遇 到 
超出 了 基本 设置 的 更 复杂 的 问题 ， 对 于 这 些 问 题 ， 请 在 http://stackoverflow.com/questions/ 
tagged/apache-spark 留言 咨询 或 向 邮箱 user@spark.apache.org 发 邮件 。 


6.6 本 章 小 结 


在 本 章 中 , 讨论 了 Spark 及 其 各 种 组 件 的 架构 , 还 谈 到 了 Spark 框架 的 一 些 核心 组 件 ， 
如 RDD。 此 外 ， 讨 论 了 Spark 及 其 各 种 核心 API 的 包装 结构 ， 还 配置 了 Spark 集群 ， 并 
用 Scala 和 Java 编写 并 执行 了 第 一 个 Spark 作业 。 

在 下 一 章 中 ， 将 详细 讨论 Spark RDD 公开 的 各 种 函数 /API。 
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分 析 历 史 数 据 和 揭示 隐藏 模式 是 现代 企业 的 关键 目标 之 一 。 数据 科学 家 /架构 师 / 开 发 
人 员 正 努力 实施 各 种 数据 分 析 策 略 ， 以 帮助 他 们 在 最 短 时 间 内 分 析 数 据 并 发 现价 值 。 

数据 分 析 本 身 是 一 个 复杂 的 多 步骤 过 程 。 它 是 通过 分 析 和 人 逻辑 推理 来 检查 所 提供 数 
据 的 每 个 组 成 部 分 ， 并 从 中 导出 价值 的 过 程 。 通 过 利用 数据 挖掘 、 文 本 分 析 等 各 种 数据 
分 析 方 法 来 收集 、 审 查 和 分 析 来 自 各 种 来 源 的 数据 ， 目 的 是 发 现 有 用 的 信息 、 提 出 结论 
并 支持 决策 。 

转换 是 数据 分 析 过 程 中 最 关键 和 重要 的 一 步 ， 需 要 深入 了 解 转换 语言 的 各 种 技术 和 
功能 ， 这 种 语言 可 以 将 数据 或 信息 从 一 种 格式 转换 为 另 一 种 格式 ， 通 常 是 从 源 系统 的 格 
式 转换 为 新 目标 系统 所 需 的 格式 。 

转换 是 非常 主观 的 ， 根 据 最 终 目 标 可 以 执行 各 式 各 样 的 功能 。 在 转换 过 程 中 涉及 的 
公共 函数 的 一 些 示 例 包 括 聚 合 (sum, avg. min 和 max)、 排 序 、 多 源 数据 连接 、 解 聚 、 
导出 新 值 等 。 

在 本 章 中 ， 将 讨论 由 Spark 和 弹性 分 布 式 数据 集 RDD) API 提供 的 各 种 转换 函数 ， 
还 将 讨论 用 于 持久 化 转换 数据 集 的 各 种 策略 。 

本 章 将 涵盖 以 下 几 点 : 

OQ 理解 Spark 转换 及 操作 

OQ ”编程 Spark 转换 及 操作 

OQ 处理 Spark 的 持久 性 


7.1 理解 Spark 转换 及 操作 


在 本 节 中 ， 将 讨论 Spark RDD API 提供 的 各 种 转换 和 功能 操作 ， 还 将 讨论 不 同形 式 
的 RDD API。 

RDD 或 弹性 分 布 式 数据 集 是 Spark 的 核心 组 件 。 用 于 对 原始 数据 执行 变换 的 所 有 操 
作 在 不 同 的 RDD API 中 提供 。 在 第 6 章 “ 熟 悉 Spark” 中 讨论 了 RDD API 及 其 在 弹性 分 
布 式 数 据 集 (RDD) 部 分 中 的 功能 ， 但 有 必要 再 次 重申 不 存在 访问 原始 数据 集 的 API。 
Spark 中 的 数据 只 能 通过 RDD API 公开 的 各 种 操作 来 访问 。RDD 是 不 可 变 的 数据 集 ， 因 
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此 对 原始 数据 集 应 用 的 任何 转换 生成 新 的 RDD， 而 不 会 对 调用 转换 操作 的 数据 集 /RDD 
进行 任何 修改 。RDD 中 的 转换 为 延迟 执行 ， 这 意味 着 任何 转换 的 调用 不 会 立即 应 用 于 基 
础 数据 集 。 仅 当 调用 任何 操作 或 需要 返回 结果 时 ， 才 应 用 转换 驱动 程序 。 这 个 过 程 有 助 
于 Spark 框架 更 有 效 地 工作 。 对 原始 数据 集 上 (在 相同 序列 中 ) 应 用 的 所 有 变换 保持 跟踪 ， 
这 一 保持 跟踪 的 过 程 被 称 为 数据 沿袭 。 每 个 RDD 记 住 它 被 构造 的 方式 ， 这 意味 着 它 保持 
转换 的 轨迹 ， 先 前 的 RDD 应 用 此 转换 成 为 现 有 RDD。 高 级 别 的 每 个 RDD API 都 提供 以 
下 功能 。 
Q 分 区 RDD 的 主要 功能 之 一 是 记 住 由 该 RDD 表示 的 分 区 列表 。 分 区 是 将 数据 
分 成 多 个 部 分 的 逻辑 组 件 ， 便 于 能 够 分 布 于 集群 上 以 实现 并 行 性 。 更 详细 地 说 ， 
Spark 作业 收集 和 缓冲 数据 , 这 些 数据 被 进一步 分 成 执行 的 各 个 阶段 以 形成 执行 
流水 线 。 数 据 集中 的 每 个 字 节 由 RDD 表示 ， 执 行 流水 线 被 称 为 有 向 非 循环 图 
(DAG) 。 执 行 流水 线 的 每 一 阶段 所 涉及 的 数据 集 被 进一步 存储 在 大 小 相等 的 
数据 块 中 ， 这些 数据 库 就 是 RDD 表示 的 分 区 。 最 后 ， 对 于 每 个 分 区 只 有 一 个 任 
务 被 分 配 或 执行 。 因 此 ， 作 业 的 并 行 性 直接 取决 于 为 作业 配置 的 分 区 数 。 
O ”分割 : 此 功能 用 于 分 割 提供 的 数据 集 。 例 如 ， 将 Hadoop 的 TextInputFormat 
(http://tinyurl.com/nq3t2eo) 用 于 第 6 3 * 2A2& Spark” 中 “编写 执行 第 一 个 Spark 
程序 ”中 的 示例 程序 ， 其 中 使 用 了 新 的 行 字符 On) 来 拆 分 所 提供 的 数据 集 。 
O RRR: 这 是 和 其 他 RDD 间 依 赖 关 系 的 列表 。 
O “分 区 器 : 这 是 用 于 键 / 值 对 RDD 分 区 的 分 区 器 类 型 ， 是 可 选 的 ， 并 且 仅 当 RDD 
包含 有 键 / 值 形式 的 数据 时 才 适 用 。 
O HAME: RDD 还 存储 计算 每 个 拆 分 的 首选 位 置 列表 ， 例 如 HDFS 文件 的 块 
位 置 。 
下 面 继续 讨论 Spark 提供 的 各 种 RDD API， 然 后 还 将 结合 适当 的 示例 讨论 它们 的 适 
用 性 。 






































7.1.1 RDD API 


所 有 Scala RDD API 的 实现 都 封装 在 org.apache. spark rdd.* 包 中 o Scala 也 在 内 部 被 编 
译 成 .class 文件 ， 所 以 大 多 数 情 况 下 它 与 Java 兼容 ， 但 在 某 些 像 内 联 或 lambda 函数 /表达 
式 中 可 能 就 不 是 如 此 了 。 对 于 这 些 不 兼容 的 情况 ， 相 应 的 Java 实现 由 Spark 在 
org.apache.spark.api.java.* 包 中 提供 。 

Spark 所 遵循 的 Java 类 命名 约定 是 为 所 有 Scala 类 预先 定义 关键 字 为 java 的 类 名 , 并 
删除 关键 字 function， 以 防 Scala 类 名 称 中 包含 关键 字 function, 例如 ，RDD.Scala 的 相应 
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实现 是 JavaRDD java, PairRDDFunctions.scala 的 相应 实现 为 JavaPairRDD java. 
以 下 是 Spark 提供 的 几 个 重要 的 RDD API. 


日 


RDD.scala: 这 是 所 有 RDD 实现 的 基本 抽象 类 ， 这 些 RDD 实现 提供 例如 filter. 
map. flatmap. foreach 等 基本 操作 。 有 关 RDD API 提供 操作 的 更 多 信息 ， 请 参 
阅 http://tinyurl.com/nqkxgwk. 

DoubleRDDFunctions.scala: 包含 RDD 的 各 种 数值 和 统计 函数 ， 这 些 RDD 只 包 
含 双 精度 形式 的 值 C http://www.scala-lang.org/api/2.10.5/index.html#scala. 
Double) , ， 例 如 mean(). stdev(). variance()fil stats0) 都 是 由 DoubleRDDFunctions 
提供 的 统计 函数 。 有 关 由 DoubleRDDFunctions.scala 提供 的 操作 类 型 的 信息 , 请 
参阅 http://tinyurl.com/ou35u4p。 

HadoopRDD: 这 里 提供 了 实用 函数 以 读 取 来 自 HDFS、HBase 或 S3 的 源 数据 。 
其 使 用 较 旧 的 MapReduce API Corg.apache.hadoop.mapread) 来 读 取 数据 。 还 有 
男 一 个 名 为 NewHadoopRDD 的 API 利用 较 新 的 MapReduce API (org.apache. 
hadoop.mapreduce) 来 读 取 数 据 。 HadoopRDD 和 NewHadoopRDD 都 使 用 
@DeveloperAPI 注释 ， 这 意味 着 开发 人 员 可 以 根据 自己 的 需要 或 方便 来 扩展 和 
增强 此 API。 同 时 建议 使 用 SparkContexthadoopRDD() 或 SparkContext. 
newAPIHadoopRDD() 获 取 此 API 的 引用 ,而 不 是 直接 实例 化 ,可 参阅 http://tinyurl. 
com/nctlley 或 http://tinyurl.com/oduzulh 了 解 HadoopRDD 或 NewHadoopRDD 的 
公开 操作 。 

JdbcRDD: 这 个 API 公开 了 可 用 于 执行 SQL 查询 的 操作 ， 通 过 操作 可 以 从 
RDBMS 中 提取 数据 ， 然 后 从 结果 中 创建 RDD。 例 如 ， 假 设 有 一 个 包含 有 ID、 
name 和 age 列 的 EMP 表 的 RDBMS (例如 Apache Derby) ， 并 且 要 打印 年 龄 组 
为 20 一 30 岁 的 所 有 员工 的 ID。 以 下 代码 满足 此 要 求 , 并 在 驱动 程序 控制 台 上 输 
出 符合 员工 的 姓名 和 年 龄 : 




















//Define the Configuration 


val 


conf = new SparkConf (); 


//Define Context 


val 


ctx = new SparkContext (conf) 


//Define JDBC RDD 


val 


GEX 


rdd = new JdbcRDD( 


(0 => { DriverManager.getConnection ("jdbc:derby:temp/Jdbc- 
RDDExample") 
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}, 

"SELECT EMP ID,Name FROM EMP WHERE Age > = ? AND ID <= ?",20, 30, 3, 
(r: ResultSet) => { r.getInt(1); r.getString(2) } ).cache() 

//Print only first Column in the ResultSet 

System.out.println (rdd.first) 

QS 饮 了 解 更 多 信息 ， 请 参阅 http://tinyurl.com/pd697q3 中 JdbcRDD 的 操作 。 

O PairRDDFunctions: 这 个 API 提供 可 应 用 于 键 / 值 对 RDD 的 操作 。 该 API 包含 与 
RDD 类 似 的 操作 ， 但 它 覆 盖 了 无 法 应 用 于 键 / 值 RDD 的 某 些 功能 。 例 如 ，RDD 
提供 了 一 个 aggnegatel0 操 作 ， 它 聚合 每 个 分 区 的 元 素 ， 然 后 为 使 用 给 定 组 合 函 
数 的 所 有 分 区 来 聚合 结果 。 相 同 的 操作 不 能 应 用 于 键 / 值 , 因此 PairRDDFunctions 
引入 了 aggregateByYKey0， 它 根据 键 的 值 聚 合 数据 。 更 多 相关 信息 请 参阅 
http://tinyurl.com/po5vpxb， 可 查看 PairRDDFunctions 的 操作 。 

口 OrderedRDDFunctions: 这 个 API 类 似 于 PairRDDFunctions API， 区 别 在 于 它 适 

用 于 可 排序 且 具 有 隐 式 转换 的 任何 类 型 的 键 。 此 API 提供 所 有 基本 类 型 的 隐 式 
排序 , 还 提供 支持 元 素 /对 象 自 定 义 排序 的 灵活 性 。 例如 , 假设 在 键 / 值 对 的 RDD 
中 ， 键 是 一 种 类 型 的 字符 串 ， 则 比较 两 个 键 ， 并 且 数 据 集 按 如 下 排序 : 


Keyl.toLowerCase.compare (Key2.toLowerCase) 





KSS 欲 了 解 更 多 信息 ， 请 参阅 http://tinyurl.com/qhxxv3c 中 OrderedRDDFunctions 
的 操作 。 


O SequenceFileRDDFunctions: 这 里 包含 转换 RDD 的 额外 函数 , 该 RDD 使 用 隐 式 
转换 机 制 将 键 / 值 对 转换 为 Hadoop 序列 文件 。 这 个 API 将 RDD 转换 为 Hadoop 
的 Writable 接口 的 实现 (http://tinyurl.com/qddpbv2) 。 欲 了 解 更 多 信息 ， 请 参阅 
http://tinyurl.com/ph4q6sf 中 SequenceFileRDDFunctions 的 操作 。 

下 面 继续 推进 ， 讨 论 一 些 由 已 定义 RDD 的 API 所 提供 的 重要 转换 和 功能 操作 。 


7.4.2 RDD 转换 操作 


在 本 节 中 ， 将 讨论 由 不 同类 型 的 RDD API 提供 的 一 些 重要 且 广 泛 使 用 的 转换 操作 。 
RDD API 公开 了 各 种 操作 ， 从 简单 的 数据 集 过 滤 到 数据 集 分 区 和 重新 分 区 。 下 面 来 
谈 谈 RDD API 公开 的 一 些 操作 。 
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filter(filterFunc): 将 所 提供 函数 应 用 于 RDD 的 所 有 元 素 ， 并 仅 为 返回 true 的 元 
素 生成 RDD。 

map(mapFunc): 将 一 个 给 定 函数 应 用 于 RDD 的 所 有 元 素 , 并 生成 一 个 新 的 RDD。 
flatMap(flatMapFunc): 类 似 于 map0 操 作 ， 但 结果 会 被 精简 规整 ， 然 后 生成 一 个 
新 的 RDD 并 返回 最 终结 果 集 。 

mapPartitions(mapPartFunc,preservePartitioning): 返回 应 用 所 提供 函数 的 新 RDD, 
每 次 提供 的 函数 都 对 应 已 调用 RDD 的 某 个 分 区 。 自 定义 函数 必须 返回 另 一 个 迭 
代 器 Iterator[U], 所 有 分 区 (所 有 和 迭代 器 Iterators) 的 组 合 结果 将 转换 为 新 的 RDD。 
第 二 个 参数 表示 是 否 需 要 保留 分 区 器 。 除 非 RDD 包含 键 / 值 ， 否 则 这 个 参数 应 
该 为 false， 并 且 提 供 的 函数 不 调整 或 更 改 键 。 

distinct): 这 将 生成 包含 已 调用 RDD 中 不 同 元 素 的 新 RDD. 
union(otherDataset): 此 操作 将 提供 的 数据 集 (RDD) 和 调用 RDD 组 合 起 来 。 两 
个 数据 集中 的 公共 元 素 都 不 会 被 丢弃 ,而 将 出 现在 最 终 的 RDD 中 。 如 果 需 要 丢 
弃 重 复 的 元 素 ， 那 么 就 要 使 用 distinctO 操 作 。 

intersection(otherDataset): 将 生成 在 调用 和 提供 的 RDD 中 所 找到 的 公共 元 素 的 
新 RDD。 此 操作 不 产生 任何 重复 ， 还 执行 洗 牌 和 跨 集群 的 散 列 分 区 。 
groupByKey([numTasks]): 此 操作 仅 适 用 于 键 / 值 对 的 RDD。 它 对 密 钥 执 行 分 组 ， 
并 提供 可 迭代 值 RDD<Key, Iterable<Value>>。 

reduceByKey(func,[numTasks]): 此 操作 也 适用 于 RDD 的 键 / 值 对 。 当 被 调用 时 ， 
它 通过 应 用 所 提供 的 函数 来 产生 每 个 聚合 值 。 所 提供 的 函数 必须 执行 像 sum, 
average、subtract 等 聚合 操作 。 只 要 数据 集 连 接 是 为 唯一 目的 执行 的 聚合 ， 建 议 
使 用 reduceByKey0) 而 不 是 groupByKey0 ， 因 为 reduceByKey 的 性 能 优 于 
groupByKey(). 

coalesce(numPartitions): 将 RDD 中 的 分 区 数 减少 到 numPartitions。 在 将 大 型 数 
据 集 过 滤 到 较 小 数量 的 分 区 后 ， 可 更 有 效 地 运行 操作 。 
sortBy(f,[ascending],[numTasks]): 执行 排序 并 返回 带 有 排序 元 素 的 新 RDD。 通 
过 应 用 所 提供 的 函数 来 执行 排序 。 此 操作 还 有 助 于 定制 排序 的 行为 ， 可 以 在 用 
户 定义 或 自 定义 对 象 上 实现 自 定义 排序 。 

sortByKey([ascending].[numTasks]): 此 操作 在 键 / 值 对 的 RDD 上 可 用 , 并 且 只 有 
当 键 具有 隐 含 的 Ordering [Key] 作 用 域 时 才能 被 调用 。 虽 然 所 有 原始 类 型 的 排序 
已 经 存在 ， 但 仍 可 以 自 定义 排序 的 行为 并 定义 元 素 的 自 定义 分 类 /排序 。 在 隐 式 
排序 的 情况 下 ， 将 使 用 最 接近 的 范围 。 输 出 RDD 是 一 个 洗 牌 后 的 RDD， 因 为 






























































日 


口 
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它 存储 由 已 洗 牌 的 缩减 器 (reducer) 输出 的 数据 。 该 函数 的 实现 首先 使 用 范围 
分 区 器 来 划分 在 洗 牌 后 RDD 所 包含 范围 中 的 数据 。 然 后 ， 使 用 标准 排序 机 制 通 
过 mapPartitions 单独 排序 这 些 范 围 中 的 数据 。 

repartition(numPartitions): 此 函数 生成 一 个 新 的 RDD, 其 中 包含 基于 作为 参数 提 
供 的 数量 来 减少 或 增加 的 分 区 数 。 

join(otherDataset[numTasks]): 此 操作 适用 于 RDD 的 键 / 值 对 。 它 连接 调用 的 键 
以 及 提供 的 RDD 数据 ， 并 创建 一 个 新 的 RDD。 例如 ， 当 与 K 和 V1 的 RDD 相 
结合 时 ，K 和 V 的 RDD 将 生成 (区 ,(V,V1)) 的 新 RDD。 它 在 两 个 RDD 的 键 上 应 
内 部 连接 ， 并 强制 要 求 键 可 比较 。API 还 提供 了 相同 操作 的 其 他 变 体 ， 例 如 
leftOuterJoin、rightOuterJoin 和 fullOuterJoin 可 用 于 支持 左 、 右 和 完全 的 外 连接 。 























前 面 的 操作 只 是 对 RDD API 提供 的 各 种 变换 操作 的 一 营 。 可 以 在 API 文档 中 找到 所 
介绍 的 操作 的 其 他 相关 内 容 。 

继续 前 进来 了 解 RDD API 公开 的 用 于 执行 功能 的 操作 ， 然 后 将 使 用 这 些 转换 和 操作 
分 析 芝 加 哥 犯罪 数据 集 。 
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RDD 功能 操作 


在 本 节 中 ， 将 讨论 RDD API 提供 的 一 些 重要 且 广 泛 使 用 的 功能 操作 。 
RDD API 公开 了 执行 功能 的 各 种 操作 ， 其 范围 从 驱动 程序 控制 台 上 的 简单 打印 元 素 
到 在 HDFS 中 持久 化 数据 。 下 面 介 绍 RDD API 公开 的 一 些 操作 。 


口 


reduce(func): 此 操作 通过 应 用 提供 的 函数 来 聚合 RDD 的 元 素 , 提供 了 众所周知 
的 reduce 功能 Chttps://en.wikipedia.org/wiki/MapReduce) ， 所 提供 函数 应 该 是 可 
交换 和 可 关联 的 ， 以 便 可 以 并 行 、 正 确 地 计算 结果 。 

collect(): 收集 RDD 的 所 有 元 素 ， 将 其 转换 为 Scala 数组 ， 最 后 返回 结果 。 同 样 
的 操作 还 有 另 一 个 变 体 ， 其 接受 一 个 函数 ， 所 提供 的 函数 可 应 用 于 所 有 元 素 ， 
然后 再 将 这 些 元 素 添 加 到 最 终 的 Scala 数组 中 。 

count(): 计算 RDD 中 元 素 的 数量 。 

countApproxDistinct(relativeSD: Double = 0.05): 顾名思义 ， 此 操作 返回 RDD 中 
不 同 元 素 的 近似 数量 ， 采 用 了 基于 流 处 理 库 streamlib 的 算法 ， 该 算法 是 
HyperLogLog in Practice: Algorithmic Engineering of a State of the Art Cardinality 
Estimation Algorithm (http://dx.doi. org/10.1145/2452376.2452456) 一 文 内 容 的 实 
现 。 此 操作 颇 为 高 效 ， 常 被 用 于 大 RDD 跨 节 点 分 布 的 情况 下 。 通 常 此 操作 比 其 
他 计数 方法 更 快 。 第 二 个 参数 控制 计算 的 精度 ， 取 值 必须 大 于 0.000017。 还 有 
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相同 操作 的 其 他 变 体 ， 它 们 在 键 / 值 对 的 RDD 上 工作 ， 例 如 countApprox 
DistinctByKey， 其 计算 每 个 差异 键 的 差异 值 的 近似 数目 。 

countByKey(): 此 操作 仅 适 用 于 键 / 值 类 型 的 RDD, 只 计算 键 的 数量 , 并 返回 (K,C) 
组 成 的 HashMap, JEP K 是 键 ，C 是 每 个 键 的 计数 。 

first): 提取 数据 集 的 第 一 个 元 素 ， 并 将 其 返回 给 用 户 。 

take(n): 从 RDD 中 提取 前 n 个 元 素 并 将 其 返回 给 用 户 。 这 个 操作 的 实现 较为 棘 
手 ， 因 为 它 涉及 多 个 分 区 的 搜索 。 

takeSample(withReplacement, num, [seed]): 返回 数据 集中 num 个 元 素 的 随机 样本 
数组 ， 无 论 其 中 有 或 没有 替换 ， 可 选择 预先 指定 随机 数 生成 器 种 子 。 
takeOrdered(Int:num): 此 操作 首先 按 升序 从 指定 的 隐 式 Ordering [T] 对 RDD 的 元 
素 进行 排序 ， 然 后 以 数组 的 形式 返回 指定 数量 的 元 素 。 
saveAsTextFile(path:String): 将 RDD 保留 为 文本 文件 ， 文 件 名 使 用 所 提供 位 置 
上 RDD 元 素 的 字符 串 来 表示 。 

saveAsSequenceFile(path:String) : 此 操作 实现 Hadoop 的 org.apache.hadoop. 
io.Writable 接口 ， 将 元 素 的 RDD 转换 为 Hadoop 序列 文件 ， 然 后 进一步 保存 在 
所 提供 的 HDFS 位 置 中 。 

saveAsObjectFile(path:String): 将 RDD 作为 所 提供 位 置 上 序列 化 对 象 的 序列 文件 
来 保存 。 








前 面 的 操作 亦 仅 是 RDD API 所 提供 各 种 功能 操作 的 一 警 。 可 以 在 API 文档 中 找到 前 


述 操作 的 变 体 。 


以 上 讨论 了 很 多 关于 转换 和 功能 操作 内 容 ， 进 入 下 一 节 后 将 使 用 这 些 操作 来 转换 和 
分 析 芝 加 哥 犯罪 数据 集 。 

















7.2 YF Spark 转换 及 操作 


在 本 节 中 , 将 利用 RDD API 公开 的 各 种 功能 来 分 析 芝 加 哥 犯 罪 数 据 集 ， 从 简单 的 操作 
开始 ， 接 着 进行 复杂 的 转换 。 首 先 ， 创 建 /定义 一 些 基 类 ， 然 后 将 开发 转换 逻辑 。 
执行 以 下 步骤 写 入 基本 的 构建 块 : 

CD 扩展 前 面 已 建立 的 Spark-Examples 项 目 ， 并 以 chapter.seven.ScalaCrimeUtil.scala 
为 名 创建 一 个 新 的 Scala 类 。 这 个 类 会 包含 一 些 主 要 转换 工作 将 会 用 到 的 应 用 函数 。 
(2) 打开 和 编辑 ScalaCrimeUtil scala 并 添加 以 下 代码 段 : 
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package chapter.seven 


class ScalaCrimeUtil extends Serializable{ 


/[** 
* Create a Map of the data which is extracted by applying Regular 
expression. 
E 
def createDataMap(data:String): Map[String, String] - ( 


//Replacing Empty columns with the blank Spaces, 
//so that split function always produce same size Array 
val crimeData - data.replaceAll(",,,", ", , , ") 
//Splitting the Single Crime record 

val array = crimeData.split(",") 

//Creating the Map of values 

val dataMap = Map[String, String] ( 

(CID —»varray(0)); 

("Case Number" -> array(1)), 

("Date" -> array(2)), 

("Block" => array(3)), 

("IUCR" -> array(4)), 

("Primary Type" -> array(5)), 

("Description" -» array(6)), 

("Location Description" -» array(7)), 

("Arrest" -> array(8)), 

("Domestic" -» array(9)), 

("Beat" -> array(10)), 

("District" -» array(11)), 

("Ward" -> array(12)), 

("Community Area" -» array(13)), 

("FBI Code" -> array(14)), 

("X Coordinate" -» array(15)), 

("Y Coordinate" -> array(16)), 

(years => array (LINI, 

("Updated On" -> array (18)), 

("Latitude" -> array (19)), 
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("Longitude" -> array(20).concat (array (21))) 


) 
//Finally returning it to the invoking program 
return dataMap 
) 
} 


上 面 的 代码 定义 了 一 个 效用 函数 createDataMap(data:String), 它 将 单行 犯罪 数据 集 转换 
为 键 / 值 对 。 
(3) 创建 转换 工作 。 以 chapterseven.ScalaTransformCrimeData.scala 为 名 创建 一 个 新 
的 Scala 对 象 ， 并 添加 以 下 代码 : 


package chapter.seven 


import org.apache.spark.{ SparkConf, SparkContext } 
import org.apache.spark.rdd. 

import org.apache.hadoop. 

import org.apache.hadoop.mapred.JobConf 

import org.apache.hadoop.io. 

import org.apache.hadoop.mapreduce. 


/* * 
* Transformation Job for showcasing different transformations on the Crime 
Dataset. 
* @author Sumit Gupta 
* 
suf 
object ScalaTransformCrimeData { 


def main(args: Array[String]) { 
println("Creating Spark Configuration") 
//Create an Object of Spark Configuration 
val conf = new SparkConf () 
//Set the logical and user defined Name of this Application 
conf.setAppName ("Scala - Transforming Crime Dataset") 


printin("Creating Spark Context") 





调用 
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//Create a Spark Context and provide previously created 

//Object of SparkConf as an reference. 

val ctx = new SparkContext (conf) 

//Define the location of the file containing the Crime Data 

val file = "file:///home/ec2-user/softwares/crime-data/ Crimes 

-Aug-2015.csv"; 

println ("Loading the Dataset and will further process it") 

//Loading the Text file from the local file system or HDFS 

//and converting it into RDD. 

//SparkContext.textFile(..) - It uses the Hadoop's 

//TextInputFormat and file is broken by New line Character. 

//Refer to http://hadoop.apache.org/docs/r2.6.0/api/org/ apache/ 
hadoop/mapred/TextInputFormat.html 

//The Second Argument is the Partitions which specify the parallelism. 

//It should be equal or more then number of Cores in the cluster. 

val logData = ctx.textFile(file, 2) 


//Now Perform the Transformations on the Data Loaded by Spark 
executeTransformations (ctx, logData) 

//Stop the Context for Graceful Shutdown 

ctx.stop () 


/** 
* Main Function for invoking all kind of Transformation on Crime Data 
eu} 
def executeTransformations (ctx: SparkContext, crimeData: RDD[String]) 
i 


上 面 的 代码 加 载 犯罪 数据 集 ， 然 后 定义 了 新 的 方法 executeTransformations。 此 方法 是 
或 执行 任何 芝加哥 犯罪 数据 集 所 应 用 转换 的 中 心 点 , 接受 由 Spark 以 RDD[String] 形 式 








加 载 的 数据 集 ， 并 进一步 分 析 ， 以 找 出 企业 、 客 户 、 市 场 分 析 师 和 其 他 人 提出 问题 的 答案 。 
下 面 还 将 定义 一 些 问题 /场景 ， 同 样 利 用 各 种 Spark 转换 和 操作 来 提供 解决 方案 。 
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场景 1 
如 何 按 犯 
解决 方案 
解决 方案 
过 滤 数 据 ， 然 
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罪 类 型 分 组 查 出 2015 年 8 月 登记 的 犯罪 总 数 ? 

1 

很 简单 。 首 先 需 要 将 数据 转换 为 键 / 值 对 ， 再 基于 主 类 型 (Primary Type) 列 
后 基于 主 类 型 列 最 终 聚 合 数据 。 结 果 将 是 键 / 值 对 的 RDD， 其 中 键 是 犯罪 类 





型 ， 值 作为 计数 。 
以 findCrimeCountByPrimaryType 为 名 定义 一 个 新 函数 ， 它 位 于 Scala 对 象 Scala 
TransformCrimeData 的 关闭 大 括号 之 前 ， 并 添加 以 下 代码 : 


[** 


* Provide the Count of All Crimes by its "Primary Type" 


x 


def findCrimeCountByPrimaryType (ctx: SparkContext, crimeData: RDD[String]) { 


//Utility class for Transforming Crime Data 


val analyzer = new ScalaCrimeUtil() 


//Flattening the Crime Data by converting into Map of Key/ Value Pair 


val crimeMap = crimeData.flatMap(x => analyzer.createDataMap (x) ) 


//Performing 3 Steps: 


/71. 
//2. 
//3- 


Filtering the Data and fetching data only for "Primary Type" 
Creating a Map of Key Value Pair 
Applying reduce function for getting count of each key 


val results = crimeMap.filter(f => f. l.equals("Primary Type")). 


map(x => (x. 2, 1)).reduceByKey( + ) 


//Printing the unsorted results on the Console 


println("Printing the Count by the Type of Crime") 
results.collect().foreach(f => println(f. 1 + "-" + f. 2)) 


) 


接 下 来 , 从 executeTransformations() 方 法 调用 以 前 的 函数 , 至 此 大 功 告 成 。 要 执行 作业 ， 
请 执行 以 下 步骤 : 


CD AJA 





H IDE (Eclipse) 将 项 目 导 出 为 jar 文件 ， 将 其 命名 为 spark-examplesjar, Jf 
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将 此 jar 文件 保存 在 $SSPARK HOME 的 根 目录 中 。 
(2) 打开 Linux 控制 台 ， 切 换 到 $ SPARK _ HOME， 然后 执行 以 下 命令 : 
$SPARK HOME/bin/spark-submit --class chapter.seven. 
ScalaTransformCrimeData --master spark://ip-10-166-191-242:7077 
spark-examples.jar 
在 上 面 的 命令 中 ， 确 保 给 参数 -master 提供 的 值 与 在 Spark UI 上 显示 的 值 相 同 。 
一 旦 执行 以 下 命令 ，Spark 将 执行 所 提供 的 转换 函数 ， 并 最 终 在 驱动 程序 控制 台 上 打 
印 结果 ， 类 似 于 图 7.1 所 示 。 





e to load native-hadoop library for your platform... using builtin-java c 
ng defauie nane DA&scheduleh for source because Spark app. a 1S mot set,” 
t 





图 7.1 


是 不 是 很 容易 ? 下 面 转 到 下 一 个 场景 并 执行 一 些 真正 的 分 析 。 

GS 按照 代码 中 提供 的 注释 来 理解 每 个 语句 和 执行 的 转换 。 相同 的 样式 可 用 于 解 
释 其 他 场景 。 上 一 个 问题 语句 的 相应 Java 实现 可 以 在 本 书 提供 的 代码 示例 
中 找到 。 


场景 2 

如 何 发 现 2015 年 8 月 在 芝加哥 发 生 的 严重 程度 排名 前 五 的 犯罪 ? 

解决 方案 2 

解决 方案 依然 很 简单 ， 需 要 执行 在 解决 方案 1 中 执行 的 所 有 步骤 ， 然 后 按 降序 对 映射 
结果 的 值 进行 排序 (计数 )， 再 取 顶 部 数据 ， 最 后 在 控制 台 上 打印 数据 。 在 Scala WR 
ScalaTransformCrimeData 的 关闭 大 括号 之 前 添加 一 个 名 为 findTop5Crime0 的 新 函数 ， 并 添 
加 以 下 代码 : 
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/[** 

* Find the Top 5 Crimes by its "Primary Type" 

EA 

def findTop5Crime(ctx: SparkContext, crimeData: RDD[String]) { 


//Utility class for Transforming Crime Data 
val analyzer = new ScalaCrimeUtil() 


//Flattening the Crime Data by converting into Map of Key/ Value Pair 
val crimeMap = crimeData.flatMap(x => analyzer.createDataMap (x) ) 


//Performing 3 Steps: 

//1. Filtering the Data and fetching data only for "Primary Type" 

//2. Creating a Map of Key Value Pair 

//3. Applying reduce function for getting count of each key 

val results = crimeMap.filter(f => f. l.equals("Primary Type")). 
map(x => (x. 2, 1)).reduceByKey( + ) 


//Perform Sort based on the Count 

val sortedResults = results.sortBy(f => f. 2, false) 

//Collect the Sorted results and print the Top 5 Crime 

println ("Printing Sorted Top 5 Crime based on the Primary Type of Crime") 

sortedResults.collect().take(5).foreach(f => println(f. 1 + "-" + 
下 让 


} 
现在 从 executeTransformations() 方 法 调用 前 面 的 函数 ， 至 此 大 功 告 成 。 要 执行 作业 ， 
请 执行 解决 方案 1 中 相同 的 步 又。 一 旦 执行 作业 ，Spark 将 执行 提供 的 转换 函数 ， 最 后 在 
驱动 程序 控制 台 上 打印 结果 ， 类 似 于 图 7.2 所 示 。 


OECD SEE spark://1p 10 138-132 216:7077 Spar GxamplGs. Jar 








umite Toca lhost $ SPARK OVE DTN/ SPITE submit class chapter. sevenscaTarr: 
reat ing Spark configuration 

eating Spark Context 
5/11/11 07:05:31 WARN NaCivecodeLoader: unable co Toad native-hadoop library for your platfora... using bufltin-Java classes where applicable 
default nae Oacschedsler for source because spark-ajg. id 13 mot set 








THER OFENSL-LS54 
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场景 3 
如 何 发 现 8 月 份 的 犯罪 总 数 并 根据 犯罪 类 型 〈 主 要 类 型 ) 分 组 和 排序 ? 
解决 方案 3 
这 种 场景 的 解决 方案 相当 明显 ， 需 要 对 犯罪 类 型 进行 自 定义 排序 。 为 了 实现 这 一 点 ， 
需要 执行 解决 方案 1 中 的 所 有 步骤 ， 然 后 对 犯罪 类 型 执行 自 定义 排序 。 应 在 Scala 对 象 
ScalaTransformCrimeData 的 关闭 大 括号 之 前 以 findCrimeCountByPrimaryType() 为 名 定义 一 
个 新 函数 ， 并 添加 以 下 代码 片段 : 
/** 
* Provide Custom Sorting on the type of Crime "Primary Type" 
m 
def performSortOnCrimeType (ctx: SparkContext, crimeData: RDD[String]) ( 


//Utility class for Transforming Crime Data 
val analyzer = new ScalaCrimeUtil() 


//Flattening the Crime Data by converting into Map of Key/ Value Pair 
val crimeMap = crimeData.flatMap(x => analyzer.createDataMap (x) ) 


//Performing 3 Steps: 

//1. Filtering the Data and fetching data only for "Primary Type" 

//2. Creating a Map of Key Value Pair 

//3. Applying reduce function for getting count of each key 

val results = crimeMap.filter(f => f. l.equals("Primary Type")) . 
map(x => (x. 2, 1)).reduceByKey( + ) 


//Perform Custom Sort based on the Type of Crime (Primary Type) 
import scala.reflect.classTag 
val customSortedResults = results.sortBy(f => createCrimeObj(f. 1, 
f. 2), true) 
(CrimeOrdering, classTag[Crime]) 
//Collect the Sorted results and print the Top 5 Crime 
printin("Now Printing Sorted Results using Custom 
Sorting cce IIS my 
customSortedResults.collect().foreach(f => println(f. 1 + "=" + 
f. 2)) 
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[** 
* Case Class which defines the Crime Object 
oh 

case class Crime(crimeType: String, count: Int) 


/** 

* Utility Function for creating Object of Class Crime 

m. 

val createCrimeObj = (crimeType: String, count: Int) => ( 
Crime (crimeType, count) 


[** 
* Custom Ordering function which defines the Sorting behavior. 
oul 
implicit val CrimeOrdering = new Ordering[Crime] { 
def compare(a: Crime, b: Crime): Int = a.crimeType.compareTo (b. 
crimeType) 
) 


现在 ， 从 executeTransformations() 方 法 调用 前 面 的 函数 , 至 此 大 功 告 成 。 要 执行 作业 ， 
执行 之 前 在 解决 方案 1 中 相同 的 步骤 。 一 旦 执行 作业 ，Spark 将 执行 提供 的 转换 函数 ， 最 
后 在 驱动 程序 控制 台 上 打印 结果 ， 类 似 于 图 7.3 所 示 。 








图 7.3 
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场景 4 

如 何 把 过 滤 后 的 犯罪 数据 映射 作为 文本 文件 或 对 象 文件 存储 在 本 地 文件 系统 中 ? 

解决 方案 4 

需要 执行 在 解决 方案 1 中 执行 的 所 有 步骤 ， 然 后 调用 saveAsTextFile(path:String) 和 
saveAsObjectFile(path:String). 7E Scala 对 象 ScalaTransformCrimeData 的 关闭 大 括号 之 前 ， 
以 persistCrimeData() 为 名 定义 一 个 新 函数 ， 并 添加 以 下 代码 片段 : 


[** 





* Persist the filtered Crime Data Map into various formats (Text/ Object/ 


HDFS) 
E 
def persistCrimeData(ctx: SparkContext, crimeData: RDD[String]) { 


//Utility class for Transforming Crime Data 
val analyzer = new ScalaCrimeUtil() 


//Flattening the Crime Data by converting into Map of Key/ Value Pair 
val crimeMap = crimeData.flatMap(x => analyzer.createDataMap (x) ) 


//Performing 3 Steps: 

//1. Filtering the Data and fetching data only for "Primary Type" 

//2. Creating a Map of Key Value Pair 

//3. Applying reduce function for getting count of each key 

val results = crimeMap.filter(f => f. l.equals("Primary Type")). 
map(x => (x. 2, 1)).reduceByKey( + ) 


println("Now Persisting as Text File") 

//Ensure that the Path on local file system exists till "output" folder. 
results.saveAsTextFile ("file:///home/ec2-user/softwares/crime-data/ 
output/Crime-TextFile"«System.currentTimeMillis()) 

print1n ("Now Persisting as Object File") 
//Ensure that the Path on local file system exists till "output" folder. 
results.saveAsObjectFile("file:///home/ec2-user/softwares/crime-data/ 


output/Crime-ObjFile"+System.currentTimeMillis()) 
H 
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ILE, M executeTransformations() 方 法 调用 前 面 的 函数 ， 至 此 大 功 告 成 。 要 执行 作业 ， 
请 执行 与 之 前 解决 方案 1 中 相同 的 步骤 。 
场景 5 
如 何 向 Hadoop HDFS 中 保存 数据 ? 
解决 方案 5 
为 了 在 Hadoop HDFS 上 保存 数据 ， 首 先 需要 设置 Hadoop， 因 此 执行 以 下 步骤 来 设置 
Hadoop 和 HDFS: 
(1) 从 https://archive.apache.org/dist/hadoop/common/hadoop-2.4.0/hadoop-2.4.0.tar.gz 
下 载 Hadoop 2.4.0 发 行 版 ， 并 将 压缩 包 文 件 解压 到 已 配置 Spark 的 同一 台 机 器 上 所 选择 的 
任何 文件 夹 。 
(2) 打开 Linux Shell 并 执行 以 下 命令 : 





export HADOOP PREFIX=<path of your directory where we extracted Hadoop> 


(3) 遵循 http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/Single 
Clusterhtml 中 定义 的 步骤 进行 单 节 点 设置 。 完 成 所 给 链接 中 定义 的 前 提 条 件 后 ， 可 以 执行 
伪 分 布 式 模式 或 完全 分 布 式 模式 的 设置 指令 。 对 目前 场景 而 言 , 伪 分 布 式 模式 将 有 效 工作 ， 
但 不 妨碍 尝试 后 者 。 

(4) 完成 设置 后 ， 打 开 Linux Shell 并 执行 以 下 命令 : 

$HADOOP_PREFIX/bin/hdfs namenode -format 
$HADOOP_PREFIX/sbin/start-dfs.sh 


(5) 第 一 个 命令 将 格式 化 namenode 节点 并 使 文件 系统 准备 好 待 用 。 使 用 第 二 个 命令 
启动 所 需 的 最 少 Hadoop 服务 ， 其 中 将 包括 namenode 和 辅助 namenode。 
(6) 执行 这 些 命令 在 HDFS 中 创建 一 个 目录 结构 ， 将 于 此 存储 数据 : 


$HADOOP PREFIX/bin/hdfs dfs -mkdir /spark 

$HADOOP PREFIX/bin/hdfs dfs -mkdir /spark/crime-data 

$HADOOP PREFIX/bin/hdfs dfs -mkdir /spark/ crime-data/oldApi 
$HADOOP PREFIX/bin/hdfs dfs -mkdir /spark/s crime-data/newApi 


如 果 一 切 正常 ， 无 任何 异常 出 现 ， 请 打开 浏览 器 ， 浏 览 网 址 http://localhost:50070/ 
explorer.html#/， 将 能 够 看 到 由 上 述 命令 创建 的 空 目录 ， 如 图 7.4 所 示 。 
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Browse Directory 


sparkicrime-data. Got 


Permission Owner Group size Replication Block size Name 
gwar x ec2-user supergroup 0B 0 o3 


dxrxrx ec2-user supergroup 0B 0 08 
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图 7.4 显示 了 HDFS 文件 系统 浏览 器 , 在 其 中 可 以 浏览 、 查 看 和 下 载 用 户 使 用 HDFS 














API 创建 的 任何 文件 。 
Qo 有 关 Hadoop 和 HDFS 的 更 多 信 


当 完 成 Hadoop 安装 后 ， 修 改 现 有 函数 persistCrimeData()， 并 在 关闭 大 括号 之 前 添加 
以 下 代码 片段 : 


//Creating an Object of Hadoop Config with default Values 





， 请 参阅 http://hadoop.apache.org/。 


val hConf = new JobConf (new org.apache.hadoop.conf.Configuration () ) 


//Defining the TextOutputFormat using old APIs available with =<0.20 

val oldClassOutput = classOf [org.apache.hadoop.mapred. TextOutputFormat 

[Text, Text] ] 

//Invoking Output operation to save data in HDFS using old APIs 

//This method accepts the following Parameters: 

//1.Path of the File on HDFS 

//2.Key - Class which can work with the Key 

//3.Value - Class which can work with the Key 

//4.QutputFormat - Class needed for writing the Output in a specific 
Format 

//5.HadoopConfig - Object of Hadoop Config 

println("Now Persisting as Hadoop File using in Hadoop's Old APIs") 

results.saveAsHadoopFile ("hdfs://localhost:9000/spark/crime-data/oldAp 

i/Crime-"«System.currentTimeMillis(), classOf[Text], classOf[Text], 

oldClassOutput ,hConf) 

//Defining the TextOutputFormat using new APIs available with >0.20 

val newTextOutputFormat = classOf[org.apache.hadoop.mapreduce.lib. 

output.TextOutputFormat[Text, Text]] 
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//Invoking Output operation to save data in HDFS using new APIs 
//This method accepts same set of parameters as "saveAsHadoopFile" 
println("Now Persisting as Hadoop File using in Hadoop's New APIs") 
results.saveAsNewAPIHadoopFile ("hdfs: //localhost:9000/spark/crime-data/ 
new Api/Crime-"«System.currentTimeMillis(), classOf[Text], classOf[Text], 
newTextOutputFormat ,hConf ) 


要 执行 作业 ， 请 执行 与 之 前 解决 方案 1 中 相同 的 步骤 ， 执 行 完 后 ， 将 看 到 生成 的 数 
据 文 件 ， 并 持久 保存 在 Hadoop HDFS 中 ， 如 图 7.5 所 示 。 


Browse Directory 


isparkícrime-data/newApVCrime-1447295945612. 


Permission Owner Block size 
err 
ar 


wer 





场景 6 
如 何 发 现 按照 IUCR 代码 名 称 分 类 的 8 月 份 登记 的 犯罪 总 数 ? 
解决 方案 6 


IUCR (Illinois Uniform Crime Reporting) 代码 是 芝加哥 警察 局 提供 的 标准 犯罪 代码 。 
它们 需要 从 http://data.cityofchicago.org/Public-Safety/Chicago-Police-Department-Illinois- 
Uniform-Crime-R/c7ck-438e 下 载 ， 并 以 IUCRCodes.txt 为 名 存储 在 同一 目录 中 ， 那 里 存储 
了 本 书 所 用 的 芝加哥 犯罪 数据 。 现在 解决 方案 将 分 为 两 个 步骤 。 首 先 需 要 根据 IUCR 代码 
对 犯罪 进行 分 组 ， 然 后 需要 合并 IUCR 代码 ， 并 用 IUCRCodes.txt 文件 中 的 真实 名 称 添加 / 
替换 它们 。 

执行 以 下 步骤 来 实施 解决 方案 : 

(1) 在 ScalaCrimeUtil scala 中 以 createIUCRDataMap() 为 名 定义 一 个 新 函数 。 此 函数 
将 IUCR 数据 文件 转换 为 键 / 值 对 映射 。 接 下 来 , 在 createIUCRDataMap() 中 添加 以 下 代码 : 
[** 
* Create a Map of the data which is extracted by applying Regular 


expression. 
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N 
def createIUCRDataMap (data:String): Map[String, String] = { 


//Replacing Empty columns with the blank Spaces, 
//so that split function always produce same size Array 
val icurData = data.replaceAll(",,,", ", , , ") 
//Splitting the Single Crime record 
val array = icurData.split(",") 
//Creating the Map of values "IUCR Codes - Values" 
val iucrDataMap = Map[String, String] ( 
(array(0) -» array(1)) 
) 
//Finally returning it to the invoking program 
return iucrDataMap 
} 


(2) 在 Scala 对 象 ScalaTransformCrimeData 的 关闭 大 括号 之 前 添加 一 个 名 为 
findCrimeCountByIUCRCodes0 的 新 函数 ， 加 以 下 代码 片段 : 





/* * 

* Find the Crime Count by IUCR Codes and also display the IUCR Code Names 
Sh 

def findCrimeCountByIUCRCodes (ctx: SparkContext, crimeData: RDD[String]) { 


//Utility class for Transforming Crime Data 
val analyzer = new ScalaCrimeUtil() 


//Flattening the Crime Data by converting into Map of Key/ Value Pair 
val crimeMap = crimeData.flatMap(x => analyzer. createDataMap (x) ) 


//Performing 3 Steps 
//1. Filtering the Data and fetching data only for "Primary Type" 
//2. Creating a Map of Key Value Pair 
//3. Applying reduce function for getting count of each key 
val results = crimeMap.filter(f => f. l.equals("IUCR")). 
mapi(x => (£. 2, 1)).reduceBykey( + ) 
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//Loading IUCR Codes File in Spark Memory 

val iucrFile = "file:///home/ec2-user/softwares/crime-data/ IUCRCodes. 
txt"; 

printin("Loading the Dataset and will further process it") 
val iucrCodes - ctx.textFile(iucrFile, 2) 

//Convert IUCR Codes into a map of Values 

val iucrCodeMap - iucrCodes.flatMap(x -» analyzer. 
createIUCRDataMap (x) ) 

//Apply Left Outer Join to get all results from Crime RDD 
//and matching records from IUCR RDD 

val finalResults - results.leftOuterJoin (iucrCodeMap) 


//Finally Print the results 
finalResults.collect().foreach(f => println(""«f. 1 + "=" + 
Es 24) 


) 


至 此 , 大功告成 。 下 一 步 是 执行 前 面 的 代码 段 。 执 行 与 之 前 解决 方案 1 中 相同 的 步骤 。 
一 旦 执行 完 作业 ， 其 结果 将 类 似 于 图 7.6 所 示 。 
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图 7.6 


图 7.6 的 屏幕 截图 显示 了 Spark 作业 的 输出 ， 它 合并 了 两 个 不 同 的 数据 集 ， 然 后 在 驱 
动 程序 控制 台 上 打印 结果 
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g IUCR 代码 名 称 的 一 些 值 打印 为 None, 因为 IJUCR 代码 文件 ( TUCRCodes. txt ) 
中 没有 匹配 的 代码 。 由 于 使 用 leftOuterJoin， 所 以 考虑 来 自 左 侧 数 据 集 ( 犯 
罪 记 录 ) 的 所 有 数据 ， 而 只 有 匹配 的 记录 取 自 右 侧 数据 集 (IUCR), 所 有 
不 匹配 的 记录 被 标记 为 None。 


在 本 节 中 讨论 了 用 于 执行 转换 和 操作 来 解决 现实 生活 中 问题 的 代码 语句 示例 。 继 续 
前 进 到 下 一 节 讨论 Spark 中 的 持久 性 。 


7.3 Spark 中 的 持久 性 


在 本 节 中 将 讨论 如 何在 Spark 中 处 理 持久 性 或 缓存 。 下 面 将 讨论 Spark 提供 的 各 种 持 
久 性 和 缓存 机 制 及 其 重要 性 。 
持久 性 /缓存 是 Spark 的 重要 组 件 和 功能 之 一 。 之 前 谈 到 Spark 中 的 计算 /转换 是 延迟 执 
行 的 ， 除 非 在 RDD 上 调用 操作 ， 和 否则 实际 计算 不 会 发 生 。 虽 然 这 是 一 种 默认 行为 并 提供 
容错 ， 但 有 时 也 会 影响 作业 的 整体 性 能 ， 特 别 是 当 在 计算 中 利用 和 使 用 公共 数据 集 时 。 
通过 RDD 中 公开 的 persist0 或 cache0 操 作 , 持久 性 /缓存 帮助 用 户 解决 这 个 问题 。 所 有 
节点 内 存 里 将 persist) B cache0 操 作 存储 在 调用 RDD 的 计算 分 区 中 ， 并 在 该 数据 集 (或 从 
其 派生 的 数据 集 ) 上 的 其 他 操作 中 重用 它们 。 这 使 得 未 来 的 转换 /操作 更 快 一 一 有 时 超过 10 
倍 。 缓 存 /持久 性 也 是 机 器 学 习 和 和 迭 代 算法 的 关键 工具 。 
Spark 提供 不 同 级 别 的 持久 性 ， 其 被 称 为 存储 级 别 ， 人 允许 用 户 将 数据 只 存储 在 内 存 中 ， 
只 存储 在 磁盘 上 ， 以 压缩 形式 存在 内 存 中 ， 或 者 使 用 一 些 如 Tachyon (http://tachyon 
-project.org/) 的 离线 堆 存 储 机 制 。 所 有 这 些 存储 级 别 由 org.apache.spark.storage.StorageLevel 
定义 。 
下 面 讨论 Spark 所 提供 的 各 种 存储 级 别 以 及 它们 的 合适 用 例 。 
O StorageLevel. MEMORY ONLY: 此 存储 级 别 将 RDD 存储 在 非 序列 化 的 Java 对 
象 中 ,这 些 Java 对 象 在 Spark 集群 内 存 里 。 如 果 内 存 不 足以 存储 完整 的 数据 集 ， 
则 一 些 分 区 可 能 不 被 存储 ， 并 且 将 在 每 次 需要 时 重新 计算 。 这 是 默认 级 别 ， 也 
是 允许 Spark 作业 的 最 高 性 能 水 平 。 只 有 当 有 足够 内 存 将 计算 数据 集 存储 /保存 
在 内 存 中 时 ， 才 应 考虑 此 级 别 。 
O StorageLevel MEMORY ONLY SER: 这 与 MEMORY ONLY 类 似 ， 区 别 在 于 
它 以 序列 化 Java 对 象 的 形式 存储 计算 数据 , 这 反 过 来 有 助 于 节省 一 些 内 存 空 间 。 





° 158° 


实时 大 数据 分 析 一 一 基于 Storm. Spark 技术 的 实时 应 用 





需要 谨慎 应 用 序列 化 / 反 序 列 化 机 制 以 避免 出 现 额 外 开销 。 简 而 言 之 ， 需 要 使 用 
快速 序列 化 库 ， 比 如 https://github.com/EsotericSoftware/kryo。 


请 参阅 http://spark.apache.org/docs/latest/tuning.html#data-serialization 以 了 解 
有 关 调 整 和 优化 序列 化 过 程 的 更 多 信息 。 


StorageLevel.MEMORY AND DISK: 类 似 于 MEMORY ONLY, 唯一 的 区 别 在 
于 当 内 存 不 足以 存储 一 切 数据 时 ， 它 将 计算 的 分 区 存储 在 磁盘 上 。StorageLevel. 
MEMORY AND DISK 从 磁盘 读 取 计算 分 区 ， 并 且 不 会 在 每 次 请 求 数据 时 重新 
计算 。 需 要 谨慎 使 用 这 个 级 别 ， 并 确保 从 磁盘 读 取 和 写 入 数据 集 真 的 比 整 个 重 
新 计算 过 程 更 快 。 

StorageLevel.MEMORY AND DISK SER: 类 似 于 MEMORY AND DISK, 区 
别 在 于 它 以 序列 化 Java 对 象 的 形式 存储 计算 的 分 区 。 与 MEMORY ONLY SER 
级 别 类 似 , 需要 小 心 使 用 快速 序列 化 库 , 并 确保 序列 化 过 程 不 会 导致 显著 的 延迟 。 
StorageLevel.DISK_ONLY: 这 将 计算 的 分 区 存储 在 磁盘 上 。 在 内 存 中 没有 任何 
内 容 ， 并 且 每 次 请 求 时 读 取 数 据 。 这 个 存储 级 别 不 建议 用 于 性 能 至 上 的 作业 。 
StorageLeveLMEMORY ONLY 2、MEMORY AND DISK 2 等 ， 以 2 结尾 的 
所 有 存储 级 别 都 提供 与 先前 定义 的 级 别 类 似 的 功能 ， 新 增 性 能 为 将 计算 分 区 复 
制 到 集群 中 至 少 两 个 节点 上 。 例 如 ，MEMORY ONLY 2 类 似 于 
MEMORY ONLY， 但 同时 它 还 将 计算 分 区 复制 到 集群 中 的 两 个 节点 上 。 
StorageLevel.OFF_HEAP: 此 存储 级 别 标记 为 实验 性 ， 并 且 仍 在 针对 实际 生产 用 
例 进 行 测试 。 在 OFF HEAP 存储 级 别 下 ， 数 据 以 序列 化 格式 存储 在 Tachyon 
Chttp://tachyon-project. org/) 中 。 Tachyon 是 一 种 优化 的 离线 堆 存储 解决 方案 ， 
它 减少 了 垃圾 收集 的 开销 ， 并 允许 更 小 的 执行 器 且 共 享 一 个 内 存 池 ， 这 反 过 来 
使 得 它 需要 在 大 堆 数 据 存 储 的 环境 中 或 在 多 个 并 发 应 用 程序 运行 在 同一 个 SVM 
中 才能 生效 。 将 数据 存储 在 如 Tachyon 这 样 的 堆 外 存储 中 还 有 一 个 额外 的 好 处 ， 
即 Spark 不 必 在 Spark 执行 器 月 溃 的 情况 下 重新 计算 数据 。 由 于 缓存 分 区 存储 在 
离线 堆 内 存 中 ，Spark 执行 器 仅 用 于 执行 Spark 作业 和 堆 内 存 用 作 数 据 存储 两 种 
情况 。 在 这 种 模式 下 ，Tachyon 中 的 内 存 可 以 被 丢弃 。 因 此 ，Tachyon 不 试图 重 
建 它 从 内 存 中 驱逐 的 块 。 




















Spark 提供 同 Tachyon 的 兼容 性 支持 .可 参考 http://tachyon-project.org/master/ 
Running-Spark-on-Tachyon.html 获取 有 关 Spark 与 Tachyon 集成 的 更 多 信息 。 
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除了 不 同 的 存储 级 别 ，Spark 通过 在 洗 牌 操作 (例如 reduceByKey) 中 保存 中 间 数 据 来 
提供 性 能 优化 ， 即 使 是 在 没有 用 户 显 式 调用 持久 性 的 情况 下 。 这 样 做 是 为 了 避免 在 洗 牌 期 
间 节 点 故障 时 要 重新 计算 整个 输入 。 还 需要 注意 的 是 ， 对 于 RDD 持久 化 级 别 只 可 以 定义 
一 次 ， 一 旦 定义 后 ， 在 作业 执行 的 生命 周期 中 不 能 更 改 

Spark 利用 近期 最 少 使 用 LRU) 来 自动 从 内 存 中 丢弃 或 刷新 数据 (基于 存储 级 别 )， 
但 是 也 可 以 显 式 地 调用 RDD.unpersist0 来 释放 Spark 内 存 。 

















7.4 本 章 小 结 2a 


在 本 章 中 ， 讨 论 了 Spark RDD API 提供 的 各 种 转换 及 操作 ， 还 讨论 了 各 种 现实 问题 ， 
并 通过 使 用 Spark 转换 及 操作 来 解决 它们 。 最 后 ,还 讨论 了 Spark 提供 的 用 于 性 能 优化 的 
持久 性 /高 速 缓存 。 

在 下 一 章 中 ， 将 讨论 使 用 Spark SQL 的 交互 式 分 析 。 
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所 有 现代 企业 的 关键 目标 是 达成 对 数据 的 轻松 访问 ， 并 让 使 用 者 能 够 执行 迅速 快捷 
的 分 析 和 做 出 明智 的 决策 。 

使 用 结构 化 查询 语言 (SQL) Chttps://en.wikipedia.org/wiki/SQL) 的 交互 式 分 析 是 一 
个 这 样 的 选项 ， 它 一 直 帮 助 企业 实现 这 个 关键 目标 。 不 用 说 ， 由 于 它 的 几 个 优点 

C http://www.moreprocess.com/database/sql/pros-advantages-of-sql-structured-query-language ) , 
SQL 一 直 是 分 析 师 们 的 首选 语言 ， 但 是 随 着 大 数据 的 出 现 ， 很 难 继续 使 用 RDBMS 上 的 
SQL 进行 交互 式 分 析 ， 因 此 迫切 需要 一 个 框架 ， 可 以 在 NoSQL 数据 库 、Hadoop 等 各 种 
大 数据 框架 上 提供 类 似 于 SQL 的 接口 。 这 种 需求 很 快 就 实现 了 ，Apache 引入 了 Apache 
Hive (https://hive.apache.org/)， 它 提供 了 一 个 类 似 SQL 的 接口 及 近似 SQL 的 语法 ， 使 得 
分 析 师 们 能 够 对 存储 在 HDFS 中 的 数据 执行 分 析 。 

对 Hive 的 功能 没有 疑问 ,但 Hive 没有 达到 交互 式 分 析 的 主要 目标 。Apache Hive J^ 
展 了 Hadoop 和 MapReduce 的 原理 ， 这 主要 意味 着 拥有 批 处 理 功 能 同时 缺乏 实时 或 交互 
式 分 析 的 能 力 。 

Apache Spark 作为 一 个 内 存 分 布 式 处 理 框架 ， 很 快 就 意识 到 了 这 一 需求 ， 并 在 其 核 
心 框架 上 提供 了 另 一 个 扩展 / 库 : Spark SQL (http:/spark.apache.org/sql/)。 

在 本 章 中 ， 将 讨论 Spark SQL 的 架构 及 其 各 种 功能 ， 使 分 析 人 员 能 够 在 大 数据 上 近 
平实 时 地 执行 交互 式 分 析 / 解 析 。 

本 章 将 讨论 以 下 主题 : 

Spark SQL 的 体系 结构 
编写 第 一 个 Spark SQL 作业 
将 RDD 转换 为 DataFrame 
使 用 Parquet 

使 用 Hive 表 

性 能 调 优 和 最 佳 实践 
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8.1 Spark SQL 的 体系 结构 


在 本 节 中 将 讨论 Spark SQL 的 总 体 设 计 、 架 构 和 各 种 组 件 。 这 将 帮助 读者 了 解 Spark 
SQL 的 各 种 特色 和 功能 。 


8.1.1 Spark SQL 的 出 现 


在 诸如 Oracle, MySQL 等 关系 数据 库 管 理 系 统 (RDBMS) 的 关系 结构 中 存储 数据 ， 
并 利用 SQL 对 数据 执行 分 析 是 过 去 众所周知 的 行业 标准 ， 所 分 析 数 据 收集 自在 线 门户 、 
调查 等 多 种 来 源 。 

此 方式 在 不 超过 几 个 GB 这 样 数据 量 有 限 合理 的 情况 下 工作 正常 。 一 旦 数据 量 发 展 
到 TB 级 别 ， 它 便 遭 遇 极 大 挑战 ， 比 如 SQL 查询 会 需要 几 个 小 时 ， 有 时 查询 甚至 无 法 完 
成 ， 并 可 能 导致 整个 系统 本 身 的 多 次 崩溃 。 

于 是 Apache Hadoop (https://en.wikipedia.org/wiki/Apache Hadoop) 应 运 而 生 ， 它 作 
为 一 个 分 布 式 、 可 扩展 、 容 错 、 并 行 和 批 处 理 框架 ， 可 用 于 在 商用 硬件 上 处 理 TB/PB 级 
别 的 数据 。Hadoop 是 在 MapReduce (http://tinyurl.com/mSwgezy) 的 流行 编程 范式 上 开发 
的 。 虽 然 Hadoop 本 是 为 可 以 使 用 Java 开发 元 长 、 复 杂 的 MapReduce 程序 的 硬 核 Java 程 
序 员 设计 的 , 但 在 Hadoop 之 上 也 引入 了 诸如 Pig (https://pig.apache.org/) 和 Hive (https:// 
hive.apache.org/) 来 供 非 Java 背景 人 士 进行 应 用 开发 。 

Apache Pig 更 像 是 一 种 脚本 语言 , 而 Hive 提供 了 类 似 SQL 的 语法 , 分 析 人 员 可 以 编 
写 类 似 SQL 的 查询 ， 这 些 查询 自动 转换 为 MapReduce 作业 ,在 集群 节点 上 执行 ， 最 终生 
成 结果 。 

Hadoop 为 大 数据 处 理 带 来 了 革命 ， 如 Apache Hive 等 相关 框架 很 快 在 分 析 师 中 间 流 
fr, 被 用 为 TB/PB 级 别 数据 的 分 析 框 架 。 Hive 的 唯一 缺点 是 它 以 批 处 理 模 式 执行 查询 ， 
查询 可 能 需要 几 分 钟 到 几 小 时 ， 这 违背 了 交互 式 分 析 的 原则 。 

于 是 需要 一 个 框架 ， 它 可 以 在 几 秒 或 几 分 钟 内 而 不 是 几 小 时 内 产生 结果 。 根 据 了 解 
到 的 情况 ， 仅 有 关系 方法 显然 不 足以 满足 各 种 大 数据 应 用 需求 ， 这 些 需 求 得 和 声明 性 查 
询 (关系 方法 ) 一 起 编写 /执行 过 程 语言 来 支持 。 

Spark SQL 的 开发 目的 是 为 用 户 提供 关系 查询 和 复杂 过 程 算法 (如 机 器 学 习 算 法 ) 混 
合 应 用 的 灵活 性 ， 此 类 应 用 在 内 存 中 执行 分 析 ， 可 在 几 秒 或 几 分 钟 内 生成 结果 。 这 里 有 
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JL4 Spark SQL 的 显著 特点 : 
口 支持 已 经 在 Spark 内 存 (RDD) 中 与 外 部 数据 源 中 数据 的 合并 和 结合 ， 最 终 还 
提供 关系 处 理 。 


O 利用 已 建立 的 DBMS 技术 同时 提供 高 性 能 。 

口 “支持 新 的 数据 源 ， 其 中 包括 半 结 构 化 数据 和 适用 于 查询 联合 的 外 部 数据 库 。 

口 ”使 用 如 图 形 处 理 和 机 器 学 习 这 样 的 高 级 分 析 算 法 来 实现 扩展 。 

Spark SQL F 2014 年 5 月 首次 发 布 ， 是 Spark 中 活跃 的 开发 组 件 之 一 。 它 经 过 了 实 
战 考验 。Spark SQL 已 经 部 署 在 大 规模 数据 处 理 环境 中 ， 其 中 集群 规模 约 为 8000 个 节点 
和 超过 100 PB 的 数据 。 是 不 是 很 有 意思 ? 

之 后 将 对 其 进行 更 多 的 讨论 ， 并 且 给 出 一 些 现实 世界 的 例子 ， 但 在 此 之 前 先 转 到 下 
一 部 分 ， 我 们 将 讨论 Spark SQL 的 整体 架构 和 组 件 。 


8.1.2 Spark SQL 的 组 件 








在 本 节 中 ， 将 讨论 Spark SQL 所 提供 的 各 种 组 件 。Spark SQL 是 作为 核心 Spark API 
的 单独 扩展 来 开发 的 ， 引 入 了 两 个 新 组 件 以 实现 所 需 的 目标 。 
口 DataFrame API: 这 是 用 于 对 外 部 数据 源 和 Spark 内 置 分 布 式 数据 集合 执行 关系 
操作 的 API。 
Q Catalyst optimizer: 这 是 一 个 可 扩展 的 优化 器 ， 用 于 为 像 机 器 学 习 这 样 的 各 种 领 
域 添加 新 的 数据 源 、 优 化 规则 和 数据 类 型 。 
下 面 将 详细 讨论 这 两 个 组 件 ， 现 在 先 看 看 Spark SQL 的 整体 架构 。 
图 8.1 显示 了 Spark SQL 及 其 各 种 组 件 的 高 级 体系 结构 。 下 面 接着 讨论 Spark SQL 
的 两 个 主要 组 件 。 


User/ Custom Applications 






































Data Sources (Scala/Java/ Python) 
CLI/ JOBC Service/ SQL API 
Parquet c 和 
Hive QL Standard QL 
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TA +> DataFrame API/ SchemaROD 
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+ > 
SPARK Execution Operators +, 
Cassandra SPARK Core| 
SPARK CORE «a! 
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1. DataFrame API 


DataFrame 或 SchemaRDD 不 是 一 个 新 概念 ， 它 已 经 在 R 语言 Owwwr-tutorcom/- 
introduction/data-frame) 中 或 Python 的 Pandas (http://pandas.pydata.org/pandas-docs/stable/ 
dsintro html) 中 得 以 实现 。 

Spark 扩展 并 利用 了 相同 的 概念 , 其 所 实现 的 DataFrame 用 于 存储 具有 相同 模式 的 分 布 
式 行 集合 。 它 是 Spark SQL API 中 的 主要 抽象 ， 相 当 于 关系 数据 库 中 的 表 。 可 以 像 对 Spark 
Core 分 布 式 集合 (RDD) 一 样 以 类 似 的 方式 操作 。DataFrame 跟踪 其 模式 并 支持 导致 更 优 
化 执行 的 各 种 关系 操作 。 下 面 讨论 DataFrame 的 一 些 特性 。 

2. DataFrame 和 RDD 


DataFrame 像 是 行 对象 的 RDD 一 般 , 其 允许 用 户 调用 如 map reduce 等 过 程 性 的 SPARK 
API 函数 。 它 们 可 以 通过 各 种 各 样 的 方式 来 构建 ， 既 能 直接 从 关系 数据 存储 中 的 表 或 JSON 
或 Cassandra 来 构建 ， 或 者 从 Scala/Java/Python 代码 创建 的 现 有 RDD 中 来 构建 。 一 旦 构造 
好 DataFrame， 就 可 以 使 用 诸如 Group By、Order By 等 各 种 关系 运算 符 来 查询 或 操作 它们 ， 
这 些 运 算 符 接受 领域 特定 语言 中 的 表达 式 。 

注意 ， 像 RDD 一 样 ，DataFrame 也 是 延迟 执行 的 ， 除 非 用 户 调 用 例如 DataFrame 上 的 
print0 或 count0 之 类 的 输出 操作 ， 和 否则 不 会 有 物理 执行 发 生 。 如 RDD 一 样 的 DataFrame 
还 将 数据 缓存 在 内 存 中 ， 但 它们 以 列 存储 的 形式 存储 ， 这 样 有 助 于 减少 内 存 占用 。 它 们 还 
应 用 例如 字典 编码 和 运行 长 度 编码 之 类 的 列 式 压缩 方案 ， 这 使 得 它们 更 优 于 RDD 中 原生 
Java/Scala 对 象 的 缓存 。 

3. 用 户 定义 函数 

DataFrames 还 支持 用 户 定义 函数 (UDF), 它们 可 以 应 用 为 内 联 函 数 从 而 无 须 复杂 的 打 
包 和 注册 过 程 。 一 旦 完成 注册 ， 它 们 也 可 以 通过 IDBC/ODBC 接口 由 商业 智能 工具 使 用 。 
DataFrames 还 提供 了 在 整个 表 上 定义 UDF 的 灵活 性 ， 然 后 将 它们 作为 高 级 分 析 函 数 公开 
给 SQL 用 户 。 

这 里 是 基本 的 Scala 代码 ， 显 示 如 何 从 JSON 文件 构造 DataFrame: 









































val sparkCtx = new SparkContext (new SparkConf () ) 

val sqlCtx = new SQLContext (sparkCtx) 

//This will return the DataFrame which can be further queried 

val dataFrame = sqlCtx.read.json("/home/ec2-user/softwares/company. 


json") 
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4. DataFrame 和 SQL 


在 高 级 别 上 , DataFrame 提供 了 与 SQL 相 类 似 的 功能 。 使 用 Spark SQL 和 DataFrame, 
与 关系 查询 (SQL) 相 比 ， 执 行 分 析 要 容易 得 多 。DataFrame 为 用 户 提供 的 一 站 式 解决 方 
案 中 ， 不 仅 可 以 编写 SQL 查询 ， 还 可 以 开发 和 利用 Scala, Java 或 Python 函数 ， 并 在 它们 
之 间 传 递 DataFrame 来 构建 一 个 逻辑 计划 , 并 且 到 最 终 执 行 时 能 自 整个 计划 的 优化 中 受益 。 
开发 人 员 可 以 使 用 如 站 语句 和 循环 的 控制 结构 来 构造 其 工作 。 

DataFrame API 在 相当 早 时 就 分 析 了 逻辑 规划 ， 以 便 在 开发 人 员 编 码 时 识别 例如 缺少 
列 名 之 类 的 错误 ， 但 是 实际 查询 仍然 仅 在 调用 输出 操作 时 执行 。 

下 面 将 讨论 从 各 种 数据 源 (Parquet、Hive 或 JSON) 加 载 和 处 理 (SQL 或 Scala 代码 ) 
数据 的 各 种 示例 ， 但 在 此 之 前 ， 还 要 了 解 Spark SQL 的 其 他 组 件 。 

















8.1.3 Catalyst Optimizer 


Catalyst Optimizer 专门 用 于 优化 SQL 查询 或 DataFrame 生成 的 代码 以 执行 数据 分 析 。 
它 基 于 Scala 中 的 函数 式 编程 结构 ， 并 支持 基于 规则 和 基于 成 本 的 优化 。Catalyst 的 目标 
是 首先 确保 新 的 优化 技术 和 功能 易于 添加 到 Spark SQL, 其 次 使 社区 开发 人 员 能 够 扩展 和 
添加 新 的 数据 源 规则 到 优化 器 ， 或 添加 新 的 数据 类 型 没有 太 多 问题 。 这 两 个 目标 都 很 容 
易 通过 利用 Scala 编程 结构 来 实现 。 在 高 级 别 上 ，Catalyst 包括 以 下 的 不 同 阶段 : 

Q 分 析 

口 逻辑 优化 

D ”物理 规划 

Q ”代码 生成 

图 8.2 是 所 有 前 面 阶段 如 何 相互 连接 的 高 级 流程 : 














Logical Physical 
Optimization Planning 


Optimized f Physical 


Logical Plan ll Plans 


Code 
Generation 












Analysis 















Unresolved 


Logical Plan [4"| Logica! Plan 
图 8.2 


下 面 简 单 讨论 一 下 Spark SQL 的 每 个 阶段 。 


Cost Model 
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O 分 析 CAnalysis) : 在 此 阶段 ，Spark SQL 构建 了 一 些 关系 ， 这 些 关系 既 可 能 来 


"i 


8.1.4 





H SQL 所 产生 的 AST (抽象 语法 树 的 缩写 ) ， 又 可 能 来 自 使 用 Spark SQL API 
构建 的 DataFrame 对 象 。 此 阶段 从 缺少 关系 的 未 解析 逻辑 计划 的 创建 开始 ， 例 
如 ，SQL 查询 Select name from emp 不 会 分 辨 该 查询 是 否 有 效 (有 效 的 列 名 称 或 
RAM) 。 它 对 查询 执行 Catalyst 的 规则 ,将 其 转换 为 逻辑 计划 。 以 下 是 在 未 解 
HERIZ ET Catalyst 规则 的 几 个 示例 : 

> Spark SQL 维护 所 有 表 及 其 列 的 目录 , 因此 非常 基本 的 规则 是 通过 查看 目录 
> ”验证 不 同 列 和 应 用 运算 符 间 的 映射 。 

> ”验证 并 解析 子 表 达 式 和 运算 符 ， 运 算 符 被 用 于 评估 子 表 达 式 及 其 类 型 。 
WHEEL (Logical Optimization) : 一 旦 创建 逻辑 计划 ， 下 一 步 就 是 逻辑 优化 阶 
段 ， 其 中 将 基于 标准 规则 的 优化 应 用 于 逻辑 计划 ， 这 包括 诸如 常量 折合 、 谓 词 
下 推 、 投 影 修剪 、 空 传播 、 布 尔 表达 式 简 化 等 。 基 于 成 本 的 优化 也 可 以 通过 使 
用 规则 生成 多 个 计划 ， 然 后 计算 它们 的 成 本 来 执行 。 在 Scala 中 ， 这 些 类 型 的 优 
化 更 容易 编码 ， 并 提供 更 丰富 的 功能 ， 其 功能 超出 了 简单 的 模式 匹配 。 最 好 的 
例子 是 用 于 逻辑 优化 的 整 段 代码 不 超过 700 行 。 

物理 计划 (Physical Planning) : 逻辑 计划 后 的 下 一 步 是 使 用 与 Spark 执行 引擎 
匹配 的 物理 运算 符 生 成 一 个 或 多 个 物理 计划 。 然 后 ， 它 使 用 成 本 模型 选择 物理 
计划 。 物 理 计划 器 还 执行 基于 规则 的 物理 优化 ， 例 如 ， 将 投影 或 过 滤器 流水 线 
化 到 一 个 Spark 映射 操作 中 。 此外, 它 可 以 将 操作 从 逻辑 计划 推送 到 支持 谓词 或 
投影 下 推 的 数据 源 。 
代码 生成 (Code Generation) : 整个 过 程 的 最 终 阶段 是 生成 可 以 在 所 有 节点 上 执 
行 的 字 节 /二 进 制 代码 。Spark 本 质 上 是 全 内 存 ， 这 意味 着 它 受 CPU 约束 ， 因 此 
用 Catalyst 生成 最 终 代 码 时 需 格外 谨慎 。 考 虑 所 有 因素 后 ，Spark 开发 者 们 决定 
利用 Scala 语言 的 特殊 功能 quasiquotes (http://docs.scala-lang.org/overviews/ 
quasiquotes/intro.html) 来 使 代码 生成 更 简单 、 更 高 效 。 


AA Spark SQL 架构 和 组 件 的 更 多 信息 ， 请 参阅 http://people.csail.mit.edu/ 
matei/papers/2015/ sigmod spark sql.pdf. 








m 














SQL/Hive context 


除了 DataFrames 和 Catalyst Z^], Spark SQL 还 公开 了 另 一 个 组 件 SQLContext. 
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SQLContext 封装 了 Spark 中 的 所 有 关系 功能 ， 是 访问 所 有 Spark SQL 功能 的 入 口 点 。 
SQLContext 是 从 现 有 SparkContext 创建 的 。 

HiveContext 提供 了 SQLContext 中 所 提供 功能 的 超 集 , 用 于 通过 HiveQL 解析 器 写 入 
查询 ， 并 从 Hive 表 中 读 取 数据 。 

将 在 后 续 章节 提供 的 各 种 示例 中 快速 讨论 和 使 用 SQL/Hive context. 在 本 节 中 讨论 了 
Spark SQL 的 各 种 组 件 和 体系 结构 。 继 续 前 进 , 通过 适当 的 示例 来 了 解 Spark SQL 的 各 种 
功能 。 


























82 编写 第 一 个 Spark SQL 作业 


在 本 节 中 ， 将 讨论 用 Scala 和 Java 来 编写 Spark SQL 作业 的 基础 知识 。Spark SQL 提 
供 了 丰富 的 DataFrame API (http://spark.apache.org/docs/latest/api/scala/index.html#org.apache. 
spark.sql.DataFrame )， 可 用 于 加 载 和 分 析 各 种 形式 的 数据 集 。 它 不 仅 提 供 从 Hive, Parquet 
和 RDBMS 这 样 结构 化 格式 来 加 载 /分 析 数 据 的 操作 ， 还 提供 从 ISON 格式 和 CSV 格式 等 
半 结 构 化 格式 来 加 载 数 据 的 灵活 性 。 除 了 DataFrame API 公开 的 各 种 显 式 操作 之 外 ， 还 便 
于 对 Spark 中 已 加 载 的 数据 执行 SQL 查询 。 

继续 前 进 , 使 用 Scala 编写 第 一 个 Spark SQL 作业 ,然后 将 查看 使 用 Java 的 相应 实现 。 


8.2.1 用 Scala 编写 Spark SQL 作业 





在 本 节 中 将 使 用 Scala API 编写 和 执行 第 一 个 Spark SQL 作业 。 
这 是 本 书 的 第 一 个 Spark SQL 作业 ， 将 采用 以 公司 (company)、 部 门 (department 
和 员工 Cemployee) 组 成 JSON 格式 的 简单 数据 为 示例 。 参 考 如 下 的 代码 : 


[ 
{ 
"Name":"DEPT A", 
"No Of Emp":10, 
"No Of Supervisors":2 


"Name":"DEPT B", 
"No Of Emp":12, 


"No Of Supervisors":2 
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"Name” "DEPT C”, 
"No Of Emp":14, 
"No Of Supervisors":3 


] 
需要 复制 前 面 的 ISON 数据 并 将 其 保存 在 保存 芝加哥 犯罪 数据 集 的 相同 位 置 ， 并 将 
命名 为 company.json. 
接 下 来 ， 执 行 以 下 步骤 使 用 Scala API 处 理 相 同 的 数据 : 
(1) 打开 Spark-Examples 项 目 并 创建 一 个 名 为 chapter.eight.ScalaFirstSparkSQLJob 的 
新 包 及 Scala 对 象 。 
(2) 编辑 ScalaFirstSparkSQLJob， 并 在 包 声 明 下 面 添加 以 下 代码 片段 : 





n 











import org.apache.spark.sql. 
import org.apache.spark. 


object ScalaFirstSparkSQLJob { 


def main(args: Array[String]) { 
//Defining/ Creating SparkConf Object 
val conf = new SparkConf () 
//Setting Application/ Job Name 
conf.setAppName ("First Spark SQL Job in Scala") 
// Define Spark Context which we will use to initialize our SQL Context 
val sparkCtx = new SparkContext (conf) 
//Creating SQL Context 
val sqlCtx = new SQLContext (sparkCtx) 
//Defining path of the JSON file which contains the data in JSON Format 
val jsonFile = "file:///home/ec2-user/softwares/crime-data/ company.json" 


//Utility method exposed by SQLContext for reading JSON file 

//and create dataFrame 

//Once DataFrame is created all the data names like "Name" in the JSON 
file 

//will interpreted as Column Names and their data Types will be 
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//interpreted automatically based on their values 


val dataFrame = sqlCtx.read.json(jsonFile) 


//Defining a function which will execute operations 
//exposed by DataFrame API's 
executeDataFrameOperations (sqlCtx, dataFrame) 

//Defining a function which will execute SQL Queries using 
//DataFrame API's 

executeSQLQueries (sqlCtx, dataFrame) 


/[** 


* This function executes various operations exposed by DataFrame API 


d 
def executeDataFrameOperations (sqlCtx:SQLContext, dataFrame:DataFrame) : 
Unit = ( 


//Invoking various basic operations available with DataFrame 

println("Printing the Schema...") 

dataFrame.printSchema () 

//Printing Total Rows Loaded into DataFrames 

println("Total Rows - "+dataFrame.count ()) 

//Printing first Row of the DataFrame 

println("Printing All Rows in the Data Frame") 

println(dataFrame.collect().foreach { row => println(row) }) 

//Sorting the records and then Printing all Rows again 

//Sorting is based on the DataType of the Column 

//In our Case it is String, so it be natural order sorting 

println ("Here is the Sorted Rows by 'No Of Supervisors' - Descending") 
dataFrame.sort (dataFrame.col("No_Of Supervisors") .desc) . show (10) 
} 


y ** 

* This function registers the DataFrame as SQL Table and execute SQL Queries 
aay 

def executeSQLQueries (sqlCtx:SQLContext, 
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dataFrame:DataFrame) :Unit = { 


//The first step is to register the DataFrame as temporary table 
//And give it a name. In our Case "Company" 
dataFrame.registerTempTable ("Company") 

println("Executing SQL Queries...") 

//Now Execute the SQL Queries and print the results 
//Calculating the total Count of Rows 

val dfCount = sqlCtx.sql ("select count(1) from Company") 
printin("Calculating total Rows in the Company Table...") 
dfCount.collect () .foreach (print1n) 


//Printing the complete data in the Company table 

val df = sqlCtx.sql("select * from Company") 
println("Dumping the complete Data of Company Table...") 
dataFrame.collect () . foreach (println) 


//Printing the complete data in the Company table sorted by Supervisors 
val dfSorted = sqlCtx.sql ("select * from Company order by No Of Supervisors 
desc") 
println("Dumping the complete Data of Company Table, sorted by Supervisors 


- Descending...") 
dfSorted.collect ().foreach(println) 


}} 


上 一 段 代码 加 载 并 转换 ISON 数据 (company. json)， 然 后 使 用 DataFrame API 执行 了 
一 些 操作 ， 并 使 用 SQL 查询 执行 转换 。 

(3) 接 下 来 将 执行 ScalaFirstSparkSQLJob 并 在 驱动 程序 控制 台 上 查看 结果 。 假 设 
Spark 集群 已 启动 并 运行 ， 只 需要 使 用 相同 的 spark-submit 应 用 工具 来 提交 作业 。 这 与 在 第 
6 章 “ 熟 悉 Spark” P “H Scala 编写 Spark 作业 ”中 所 做 的 一 样 。 此 处 的 spark-submit 命令 
看 起 来 像 这 样 : 

$SPARK_HOME/bin/spark-submit --class chapter.eight. 
ScalaFirstSparkSQLJob --master spark://ip-10-166-191-242:7077 
spark-examples.jar 
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一 旦 执行 该 命令 ， 作 业 即 开始 执行 ， 并 将 产生 类 似 于 图 8.3 所 示 的 结果 。 


ae Toca liost P Tp Tore [bin par- sens -elass chapters er tr or Ion -aster sparkr /Tg 7 7017, spark ere Jar 

Y 3 WARN Nat veCodeLoader: Unable to load native hadoop library For your platform... using builtin-jave classes where applicable 
o4 wan watricssystem: Using defaut name ackchadulek for soiree bicausb Spark app.id Te noc Set 

he schema. 














oot 
二 Names string (ou) lable = true) 

== No_of Emp: long (nullable = true) 

[== No-of-supervisórs: long Crullable = true) 


"No Of Supervisors - Descending 


xecuring sut queres 
alcuslting total rows in the company Table... 


Vaping the complere pota of Company Table... 
[orm 2 

ER thè complete Data of Company Table, sorted by supervisors - Descending. - 
DEPTE dana 








fier: 
EAE 


图 8.3 


图 8.3 显示 了 第 一 个 Spark SQL 作业 在 驱动 程序 控制 台 上 的 输出 。 下 一 节 使 用 Spark 
JavaAPI 对 同一 个 作业 进行 代码 编写 工作 。 


8.2.2 用 Java 编写 Spark SQL 作业 


在 本 节 中 将 结合 Spark SQL Java API 来 讨论 和 编写 第 一 个 Spark SQL 作业 。 
假设 在 8.2.1 节 中 创建 的 company.json 仍然 存在 于 集群 上 ， 请 执行 以 下 步骤 来 处 理 
Scala API 所 使 用 的 相同 数据 : 
(1) 打开 Spark-Examples 项 目 并 创建 一 个 名 为 chapter.eight.JavaFirstSparkSQLJob 
的 新 包 和 Java 对 象 。 
(2) 编辑 JavaFirstSparkSQLJob， 并 在 包 声 明 下 面 添加 以 下 代码 片段 : 


import org.apache.spark.*; 








import org.apache.spark.sql.*; 
import org.apache.spark.api.java.*; 


public class JavaFirstSparkSQLJob ( 
public JavaFirstSparkSQLJob() { 
System.out.println("Creating Spark Configuration"); 
// Create an Object of Spark Configuration 
SparkConf javaConf - new SparkConf(); 
// Set the logical and user defined Name of this Application 
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javaConf.setAppName ("First Spark SQL Job in Java"); 
System.out.println("Creating Spark Context"); 

// Create a Spark Context and provide previously created 
// Object of SparkConf as an reference. 

JavaSparkContext javaCtx = new JavaSparkContext (javaConf) ; 


// Defining path of the JSON file which contains the data in JSON Format 
String jsonFile = "file:///home/ec2-user/softwares/crime-data/ 
company. json"; 


// Creating SQL Context 

SQLContext sqlContext = new SQLContext (javaCtx) ; 

// Utility method exposed by SQLContext for reading JSON file 

// and create dataFrame 

// Once DataFrame is created all the data names like "Name" in the JSON 
// file will be interpreted as Column Names and their data Types 
// will be interpreted automatically based on their values 
DataFrame dataFrame = sqlContext.read() .json(jsonFile) ; 

// Defining a function which will execute operations 

// exposed by DataFrame API's 

executeDataFrameOperations (sqlContext, dataFrame) ; 

// Defining a function which will execute SQL Queries using 

// DataFrame API's 

executeSQLQueries (sqlContext, dataFrame) ; 


//Closing Context for clean exit 
javactx.close(); 


[** 
* This function executes various operations exposed by DataFrame API 
xy 
public void executeDataFrameOperations (SQLContext sqlCtx, 
DataFrame dataFrame) { 


// Invoking various basic operations available with DataFrame 
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System.out.println("Printing the Schema..."); 
dataFrame.printSchema(); 

// Printing Total Rows Loaded into DataFrames 
System.out.println("Total Rows - " + dataFrame.count()); 
// Printing first Row of the DataFrame 
System.out.println("Printing All Rows in the Data Frame"); 
dataFrame.show(); 
// Sorting the records and then Printing all Rows again 
// Sorting is based on the DataType of the Column. 
// In our Case it is String, so it be natural order sorting 
System.out.println("Here is the Sorted Rows by 'No Of Supervisors' - 
Descending"); 
DataFrame sortedDF = dataFrame.sort (dataFrame.col("No Of 
Supervisors").desc()); 
sortedDF.show(); 
} 
/** 
* This function registers the DataFrame as SQL Table and execute SQL 
* Queries 
S 


public void executeSQLQueries (SQLContext sqlCtx, DataFrame dataFrame) ( 


// The first step is to register the DataFrame as temporary table 
// And give it a name. In our Case "Company" 
dataFrame.registerTempTable ("Company") ; 
System.out.println("Executing SQL Queries..."); 
// Now Execute the SQL Queries and print the results 
// Calculating the total Count of Rows 
DataFrame dfCount = sqlCtx 

-Sql("select count(1) from Company"); 
System.out.println("Calculating total Rows in the Company Table..."); 
dfCount.show(); 
// Printing the complete data in the Company table 
DataFrame df = sqlCtx.sql ("select * from Company"); 


) 
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System.out.println("Dumping the complete Data of Company Table..."); 
df.show(); 
// Printing the complete data in the Company table sorted by Supervisors 
DataFrame dfSorted - sqlCtx 

-Sql("select * from Company order by No Of Supervisors desc"); 
System.out 

-println("Dumping the complete Data of Company Table, sorted by 
Supervisors - Descending..."); 
dfSorted.show(); 


public static void main(String[] args) (new JavaFirstSparkSQLJob () ;}} 

前 面 的 代码 执行 与 Scala 作业 类 似 的 功能 ， 不 过 它 利用 了 Java API 来 实现 。 
(3) 执行 JavaFirstSparkSQLJob 并 在 驱动 程序 控制 台 上 查看 结果 。 假 设 Spark 集群 已 
启动 并 运行 ， 只 需要 使 用 相同 的 spark-submit 应 用 工具 来 提交 作业 。 这 与 在 第 6 章 “ 熟 悉 


Spark” 





中 “用 Scala 编写 Spark 作业 ”一 节 所 做 的 一 样 。spark-submit 命令 看 起 来 像 这 样 : 


$SPARK_HOME/bin/spark-submit --class chapter.eight. 
JavaFirstSparkSQLJob --master spark://ip-10-166- 191-242:7077 
spark-examples.jar 
一 旦 执行 前 述 命令 ， 作 业 即 开始 执行 ， 并 将 产生 类 似 于 Scala 作业 执行 时 所 示 的 结果 。 
至 此 , 终于 完成 使 用 Scala 和 Java API 编写 和 执行 第 一 个 Spark SQL 作业 的 学 习 。 在 
接 下 来 的 章节 中 将 讨论 Spark SQL 及 其 各 种 功能 的 细节 。 


v 


g 


为 了 避免 费 言 ， 后 面 的 部 分 将 只 讨论 使 用 Scala API 的 实现 。 


83 将 RDD 转换 为 DataFrame 


在 本 节 中 ， 将 讨论 Spark SQL 所 公开 的 将 现 有 RDD 转换 为 DataFrame 的 策略 。 
在 当今 企业 世界 中 ， 数 据 分 析 需 要 综合 使 用 多 种 工具 或 技术 。 在 某 些 情况 下 ， 既 希望 


Spark fi 


处 理 先 加载 和 处 理 数据 以 获得 一 些 见解 , 也 希望 Spark SQL 处 理 相同 数据 以 获得 另 


外 的 见解 。 在 这 些 情况 下 ， 数 据 将 只 加 载 一 次 ， 再 由 Spark 批 处 理 或 Spark SQL 各 自 处 理 ， 


然后 会 

















1 其 他 Spark 扩展 进一步 处 理 。 需 要 考虑 两 次 加 载 数据 导致 的 内 存 和 时 间 浪 费 。 
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为 了 解决 这 个 问题 ，Spark SQL (DataFrame) 提供 了 与 Spark 批 处 理 (RDD) 的 互 操 
作 性 。 简 而 言 之 ，Spark SQL 提供 了 可 以 将 RDD 转换 为 DataFrame 的 API， 并 且 可 以 用 于 
数据 分 析 。 

Spark SQL 提供 了 两 种 不 同 过 程 ， 用 于 将 现 有 RDD 转换 为 DataFrame。 

口 ” 自 动 化 过 程 : 使 用 反射 机 制 ， 推 断 类 型 和 对 象 ， 并 生成 紧凑 的 代码 。 只 有 知道 

编写 Spark 应 用 程序 的 模式 类 型 时 它 才 有 效 。 

O Faw: 手动 定义 和 映射 模式 ， 然 后 才 在 Spark 中 加 载 数 据 。 

下 面 继续 前 进 ， 来 了 解 每 个 过 程 。 


8.3.1 自动 化 过 程 



































Spark SQL 提供 的 Scala API 可 支持 将 RDD 转换 为 DataFrame 的 自动 化 过 程 。 这 里 的 
目标 是 定义 Scala 案例 类 ， 然 后 将 案例 类 的 列 映射 到 RDD 的 列 。 继 续 前 进 , 为 了 更 好 地 理 
解 ， 仍 使 用 之 前 的 犯罪 数据 集 ， 其 中 数据 为 CSV 文件 的 形式 (以 逗号 分 隔 )。 将 这 个 数据 
作为 RDD 加 载 ， 然 后 将 其 转换 为 DataFrame， 最 后 执行 一 些 分 析 。 

执行 以 下 步骤 ， 使 用 自动 化 过 程 将 RDD 转换 为 DataFrame: 

COD 打开 并 编辑 Spark-Examples 项 目 , 并 在 chaptereight 程序 包 中 添加 一 个 新 的 Scala 
对 象 ScalaRDDToDFDynamicSchema。 
(2) 编辑 ScalaRDDToDFDynamicSchema.scala 并 添加 以 下 代码 段 : 























package chapter.eight 

import org.apache.spark.sql. 
import org.apache.spark. 

object ScalaRDDToDFDynamicSchema { 


def main(args: Array[String]) { 
//Defining/ Creating SparkConf Object 
val conf = new SparkConf() 
//Setting Application/ Job Name 
conf.setAppName ("Spark SQL - RDD To DataFrame - Dynamic Schema") 
// Define Spark Context which we will use to initialize our SQL Context 
val sparkCtx - new SparkContext (conf) 
//Creating SQL Context 
val sqlCtx = new SQLContext (sparkCtx) 
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//Define path of our Crime Data File which needs to be processed 
val crimeData = "file:///home/ec2-user/softwares/crime-data/ 


Crimes -Aug-2015.csv"; 


//this is used to implicitly convert an RDD to a DataFrame. 
import sqlCtx.implicits. 

//Load the data from Text File 

val rawCrimeRDD = sparkCtx.textFile(crimeData) 

//As data is in CSV format so first step is to Split it 
val splitCrimeRDD = rawCrimeRDD.map( .split(",")) 

//Next Map the Split RDD to the Crime Object 

val crimeRDD - splitCrimeRDD.map(c -» Crime(c(0), 
c(1),c(2),c(3),c(4),c(5),c(6))) 

//Invoking Implicit function to create DataFrame from RDD 
val crimeDF = crimeRDD.toDF() 


//Invoking various DataFrame Functions 

println("Printing the Schema...") 

crimeDF.printSchema() 

//Printing Total Rows Loaded into DataFrames 

println("Total Rows - "+crimeDF.count ()) 

//Printing first 5 Rows of the DataFrame 

println("Here is the First 5 Row") 

crimeDF.show(5) 

//Sorting the records and then Printing First 5 Rows 
//Sorting is based on the DataType of the Column. 

//In our Case it is String, so it be natural order sorting. 
//Last parameter of sort() shows the complete data on Console 
//(It does not Truncate anything while printing the results) 
println("Here is the First 5 Sorted Rows by 'Primary Type'") 


crimeDF.sort ("primaryType") .show (5, false) 


// Define the schema using a case class. 
// Note: Case classes in Scala 2.10 can support only up to 22 fields. 
To work around this limit, 


// you can use custom classes that implement the Product interface. 
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//ID,Case Number, Date, Block, IUCR, Primary Type, Description 

case class Crime(id: String, caseNumber:String, date:String, 

block:String, IUCR:String, primaryType:String, desc:String) 
} 


(3) 一 旦 Scala 类 被 定义 ， 下 一 步 就 是 使 用 第 6 章 “ 熟 悉 Spark” H “H Scala 编写 
Spark 作业 ”定义 的 步 又， 并 使 用 如 下 的 spark-submit 命令 在 Spark 集群 上 执行 作业 : 
$SPARK_HOME/bin/spark-submit --class chapter.eight. 
ScalaRDDToDFDynamicSchema --master spark://ip-10-166-191-242:7077 
spark-examples.jar 
一 旦 提交 了 创建 工作 ， 它 会 被 接受 且 Spark 执行 者 将 开始 处 理 并 产生 结果 ， 结 果 类 似 
于 图 8.4 所 示 。 
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图 8.4 


图 8.4 的 截图 显示 了 Spark SQL 作业 的 结果 ， 该 作业 将 数据 加 载 到 RDD P, 将 RDD 
转换 为 Spark SQL DataFrame， 最 终 执行 数据 分 析 。 


83.2 ”手动 过 程 


在 有 些 场合 中 无 法 定义 案例 类 ， 还 需要 在 本 身 运 行 时 推断 数据 的 结构 ， 这 种 情况 下 就 
得 由 手动 过 程 来 发 挥 作用 了 。 例 如 考虑 以 下 的 场景 : 
ü ”数据 和 结构 被 编码 ， 因 此 除非 对 其 进行 解码 ， 否 则 无 法 推断 列 /记录 的 结构 和 数 
据 类 型 。 
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Q PI 或 SPI 数 据 Chttps://en.wikipedia.org/wiki/Personally_identifiable_information) 
主要 内 容 被 掩 码 隐藏 ， 并 且 基 于 用 户 的 特权 确定 是 否 显 示 真 实 值 ， 因 此 仪 在 知 
道 请 求 数据 用 户 的 身份 之 后 ， 结 构 和 模式 才能 得 以 应 用 。 
定义 模式 并 将 其 转换 为 DataFrame 的 手动 过 程 将 涉及 以 下 步骤 : 
(1) 创建 Row 对象 的 RDD (http://spark.apache.org/docs/latest/api/scala/index.html#org. 
apache.spark.sql.Row )。 
(2) 使 用 StructType (http://spark.apache.org/docs/latest/api/scala/index.html#org.apache. 
spark.sql.types.StructType) 定义 模式 。 
G) 最 后 ， 将 StructType 应 用 于 行 对 象 的 RDD. 
执行 上 述 步 骤 ， 并 使 用 手动 过 程 将 犯罪 数据 转换 为 DataFrame。 通 过 手动 过 程 将 RDD 
转换 为 DataFrame 需 执行 以 下 步 又; 
(1) 打开 和 编辑 Spark-Examples 项 目 ， 并 添加 一 个 名 为 ScalaRDDToDFManualSchema. 
scala 的 新 Scala 对 象 。 
(2) 编辑 ScalaRDDToDFManualSchema.scala 并 添加 以 下 代码 : 
































package chapter.eight 


import org.apache.spark.sql. 
import org.apache.spark.sql.types. 
import org.apache.spark. 


object ScalaRDDTODFManualSchema { 


def main(args: Array[String]) { 
//Defining/ Creating SparkConf Object 
val conf = new SparkConf () 
//Setting Application/ Job Name 
conf.setAppName ("Spark SQL - RDD To DataFrame - Dynamic Schema") 
// Define Spark Context which we will use to initialize our SQL Context 
val sparkCtx = new SparkContext (conf) 
//Creating SQL Context 
val sqlCtx = new SQLContext (sparkCtx) 


//Define path of our Crime Data File which needs to be processed 


val crimeDataFile = "file:///home/ec2-user/softwares/crime-data/ 
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Crimes -Aug-2015.csv"; 
// Create an RDD 


val crimeData = sparkCtx.textFile(crimeDataFile) 


//Assuming the Schema needs to be created from the String of Columns 
val schema = "ID,CaseNumber, Date, Block, IUCR, PrimaryType, Description" 


val colArray = schema.split(",") 


val structure = StructType (List ( 
StructField(colArray(0), StringType, true), 
StructField(colArray(1), StringType, true), 
StructField(colArray(2), StringType, true), 
StructField(colArray(3), StringType, true), 
StructField(colArray(4), StringType, true), 
StructField(colArray(5), StringType, true), 
StructField(colArray(6), StringType, true) 
)) 


//Convert records of the RDD (Crime Records) to Rows. 
val crimeRowRDD = crimeData.map( .split(",")).map(p => Row(p(0), p(1), 
p(2), p(3), p(4), p(5), p(6))) 


//Apply the schema to the RDD. 
val crimeDF = sqlCtx.createDataFrame(crimeRowRDD, structure) 


//Invoking various DataFrame Functions 
println("Printing the Schema...") 
crimeDF.printSchema() 

//Printing Total Rows Loaded into DataFrames 
println("Total Rows - "+crimeDF.count ()) 
//Printing first 5 Rows of the DataFrame 
printin("Here is the First 5 Row") 
crimeDF.show (5) 


//Sorting the records and then Printing First 5 Rows 
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//Sorting is based on the DataType of the Column. 
//In our Case it is String, so it be natural order sorting 
println("Here is the First 5 Sorted Rows by 'PrimaryType'") 


crimeDF.sort ("PrimaryType") .show (5, false) 


) 
} 
现在 大 功 告 成 了 ! 最 后 一 步 执 行 和 8.3.1 节 相 同 的 步骤 ， 使 用 spark-submit 命令 执 
行 前 面 的 代码 ， 并 分 析 结 果 ， 这 将 与 执行 ScalaRDDToDFDynamicSchema 后 看 到 的 结果 
类 似 。 
AS 需要 使 用 Spark SQL 4 & (https://github.com/databricks/spark-csv )， 以 便 由 
SQLContext 直接 加 载 CSV 格式 。 


让 我 们 继续 下 一 节 ， 将 讨论 Spark SQL 支持 的 各 种 其 他 数据 源 和 功能 。 




















8.4 使 用 Parquet 


在 本 节 中 ， 将 讨论 和 提 及 Spark SQL 提供 的 各 种 操作 ， 并 使 用 适当 的 示例 处 理 Parquet 

Parquet 是 用 于 存储 结构 化 数据 的 常见 柱状 数据 存储 格式 之 一 。Parquet 应 用 了 Dremel 
论文 (http://research.google. com/pubs/pub36632.html) 中 所 描述 的 记录 分 解 和 组 装 算法 record 
shredding and assembly algorithm (http://tinyurl.com/p8kaawg)。 Parquet 支持 有 效 的 压缩 和 
编码 模式 ， 这 比 结构 化 表 里 的 简单 存放 更 好 一 些 。 有 关 Parquet 数据 格式 的 更 多 信息 , 请 参 
li] https://parquet.apache.org/。 

Spark SQL 的 DataFrame API 提供 了 以 Parquet 格式 写 入 和 读 取 数据 的 便利 操作 。 可 以 
将 Parquet 表 持久 化 存储 为 Spark SQL 中 的 临时 表 ， 并 执行 DataFrame API 提供 的 其 他 操作 
以 进行 数据 处 理 或 分 析 。 

下 面 来 看 看 用 于 写 入 / 读 取 Parquet 数据 格式 的 示例 ， 然 后 还 将 看 到 DataFrame API 提 
供 的 一 些 高 级 功能 ， 特 别 是 用 于 Parquet 格式 。 

执行 以 下 步 又， 以 Parquet 格式 来 读 取 / 写 入 芝加哥 犯罪 数据 : 

CD. 打开 Spark-Examples 项 目 并 创建 一 个 名 为 chapter.eight.ScalaRDDToParquet.scala 

的 新 包 和 Scala 对 象 。 
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(2) 编辑 ScalaRDDToParquet.scala 并 在 包 声 明 下 面 添 加 以 下 代码 片段 : 


import org.apache.spark.sql._ 
import org.apache.spark. 


import org.apache.spark.sql.hive. 


[** 

* Reading and Writing Parquet Formats using SQLContext and HiveContext 
oy 

object ScalaRDDToParquet { 


[** 

* Main Method 

BA 

def main(args:Array[String])( 


//Defining/ Creating SparkConf Object 

val conf = new SparkConf() 

//Setting Application/ Job Name 

conf.setAppName ("Spark SQL - RDD To Parquet") 

// Define Spark Context which we will use to initialize our SQL Context 
val sparkCtx - new SparkContext (conf) 

//Works with Parquet using SQLContext 

parquetWithSQLCtx (sparkCtx) 


) 
case class Crime(id: String, caseNumber:String, date:String, 


block:String, IUCR:String, primaryType:String, desc:String) 

j; 

上 面 的 代码 片段 定义 了 创建 SparkContext 的 主 方法 , 并 调用 一 个 名 为 parquetWithSQLCtx 
(sparkCtx) 的 方法 。 这 个 新 方法 将 包含 使 用 SQLContext 写 入 和 读 取 Parquet 格式 的 逻辑 。 
还 定义 了 一 个 名 为 Crime 的 案例 类 ， 用 于 将 RDD 动态 转换 为 DataFrame。 有 关 RDD 到 
DataFrame 的 动态 转换 ， 请 参阅 本 书 8.3 节 “ 将 RDD 转换 为 DataFrame” 的 部 分 。 

(3) 继续 编辑 ScalaRDDToParquet。 在 Scala 对 象 的 关闭 大 括号 之 前 ， 添 加 一 个 名 为 
def parquetWithSQLCtx(sparkCtx :SparkContext) 的 新 函数 ， 并 在 此 新 函数 中 添加 以 下 代码 : 
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def parquetWithSQLCtx (sparkCtx:SparkContext) { 


//Creating SQL Context 
val sqlCtx = new SQLContext (sparkCtx) 


//Define path of our Crime Data File which needs to be processed 
val crimeData - "file:///home/ec2-user/softwares/crime-data/ 
Crimes -Aug-2015.csv"; 

//this is used to implicitly convert an RDD to a DataFrame. 
import sqlCtx.implicits. 

//Load the data from Text File 

val rawCrimeRDD = sparkCtx.textFile(crimeData) 

//As data is in CSV format so first step is to Split it 

val splitCrimeRDD = rawCrimeRDD.map( .split(",")) 

//Next Map the Split RDD to the Crime Object 

val crimeRDD - splitCrimeRDD.map(c -» Crime(c(0), 
c(1),c(2),c(3),c(4),c(5),c(6))) 

//Invoking Implicit function to create DataFrame from RDD 
val crimeDF = crimeRDD.toDF() 


//Persisting Chicago Crime Data in the Spark SQL Memory by name of 
"ChicagoCrime.parquet" 

//In this below operation we are also using "mode" provides the 
instruction 

//to Overwrite the data in case it already exist by that name 

crimeDF.write.mode ("overwrite") .parquet ("ChicagoCrime. parquet") 

//Now Read and print the count of Rows and Structure of Parquet tables 

val parquetDataFrame = sqlCtx.read.parquet ("ChicagoCrime. parquet") 

printin("Count of Rows in Parquet Table = "«parquetDataFrame. count ()) 

parquetDataFrame.printSchema () 

l 


前 一 段 代码 首先 加 载 犯罪 数据 ， 将 其 转换 为 DataFrame， 然 后 使 用 DataFrame API 提 
供 的 实用 工具 函数 来 写 入 和 读 取 Parquet 格式 。 














他 内 容 暂 放 一 边 ， 需 要 先 关 注 一 下 发 挥 魔法 般 关 键 作用 的 以 下 两 行 代码 : 


crimeDF .write.mode ("overwrite") .parquet ("ChicagoCrime.parquet") 


val parquetDataFrame = sqlCtx.read.parquet ("ChicagoCrime.parquet") 
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第 一 行将 DataFrame 以 Parquet 格式 写 入 Spark SQL 执行 内 存 中 ， 后 者 读 取 同样 的 数 
据 。 在 第 一 个 语句 中 使 用 了 实用 操作 mode, 它 告诉 Spark 框架 如 何 处 理 已 经 存在 的 数据 。 
其 中 提供 以 下 选项 。 
O error: 这 是 默认 模式 。 在 这 种 模式 下 ， 如 果 数 据 已 经 存在 ，Spark 会 抛 出 异常 并 
退出 。 
O overwrite: 用 新 数据 替换 现 有 数据 / 表 。 
Q append: 将 新 数据 追加 到 表 /路 径 中 己 有 的 数据 。 
Q ignore: 如 果 数 据 已 经 存在 ， 则 不 要 做 任何 事情 。 既 不 保存 新 数据 ， 也 不 修改 现 
有 数据 。 这 是 一 个 肾 等 操作 ， 即 如 果 数 据 已 经 存在 于 指定 的 路 径 / 表 中 就 不 会 产 
生 任 何 结果 
前 两 个 魔法 般 代码 也 可 以 写成 如 下 形式 : 


crimeDF.write.format ("parquet") .mode ("overwrite") 








.Save ("ChicagoCrime.parquet") 
val parquetDataFrame = sqlCtx.read.format ("parquet") . load("ChicagoCrime 
parquet") 


g Spark SQL 还 支持 ORC 格式 ( http;//tinyurl.com/oe3jh45 )。ORC 格式 可 以 用 
与 Parquet 类 似 的 方式 来 使 用 。 总 之 ， 只 要 将 Parquet 更 改 为 orc 就 可 以 了 。 
(4) pe 执行 工作 ， oe 8.5 ae 


quet —master 
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图 8.5 
图 8.5 的 屏幕 截图 显示 了 Spark SQL 作业 在 驱动 程序 控制 台 上 的 输出 。 


8.4.1 在 HDFS 中 持久 化 Parquet 数据 


在 现代 企业 里 ， 架 构 师 和 开发 人 员 正 在 努力 开发 集中 式 系统 ， 以 其 作为 所 有 部 门 或 
请 求 数据 的 用 例 的 单一 事实 情况 来 源 。 现 在 Parquet 已 成 为 一 种 行 之 有 效 的 格式 ， 企 业 专 
注 于 开发 一 种 可 以 将 数据 存储 为 Parquet 格式 的 系统 ， 以 供 组 织 内 的 其 他 用 户 /部 门 使 用 。 
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Spark 没有 自己 的 存储 规范 ， 但 它 与 HDFS 的 集成 可 以 帮助 企业 达成 目标 。 
通过 从 HDFS 这 样 的 持久 存储 区 域 直接 写 入 和 读 取 Parquet 数据 格式 ，Spark SQL 使 
得 事情 更 为 容易 。 为 有 助 于 在 HDFS 中 以 Parquet 格式 自动 存储 数据 ，DataFrame API 公 
开 了 相应 的 实用 工具 函数 /操作 。 继 续 前 进 ， 在 HDFS 中 写 入 / 读 取 芝 加 哥 犯 罪 数据 。 
执行 以 下 步骤 来 开发 用 于 从 HDFS 写 入 / 读 取 Parquet 数据 的 Spark 作业 : 

A) 浏览 http:/<HOSTNAME>:50070 并 确保 Hadoop 和 HDFS 已 启动 并 正在 运行 。 
如 果 URL 未 显示 在 NameNode 主页 中 ， 请 按照 第 7 章 “ 使 用 RDD 编程 ”里 “编程 Spark 
转换 及 操作 ”一 节 中 所 述 的 步骤 来 配置 Hadoop 和 HDFS。 

(2) 一 旦 Hadoop 和 HDFS 启动 并 运行 ， 编 辑 Spark-Examples 项 目 ， 在 现 有 Scala 
对 象 ScalaRDDToParquet 中 添加 一 个 名 为 def parquetWithHiveCtx(sparkCtx :SparkContext) 
的 操作 ， 并 自 main 方法 中 调用 它 。 

(3) 接 下 来 ， 在 parquetWithHiveCtx(sparkCtx:SparkContexb 中 编写 代码 以 加 载 犯 罪 
数据 ， 并 将 其 从 RDD 转换 为 DataFrame。 可 以 使 用 在 前 面 例子 中 所 写 的 相同 代码 ， 不 过 
有 一 个 小 的 改变 。 这 里 不 用 创建 SQLContext， 取 而 代 之 的 是 将 创建 一 个 org.apache. 
spark.sql.hive.HiveContext.HiveContext 实例 .HiveContext 提供 了 SQLContext 的 所 有 功能 ， 
同时 还 提供 了 将 HDFS 中 的 DataFrame 持久 化 的 功能 ， 对 开发 人 员 来 说 ， 这 个 功能 是 完 
全 隐藏 和 抽象 的 。 开 发 人 员 只 需要 将 上 下 文 的 类 型 更 改 为 HiveContext， 数 据 就 会 保留 在 
HDFS 中 。 

(4) 接 下 来 ， 在 将 RDD 转换 为 DataFrame 之 后 添加 以 下 代码 段 : 


















































//Persisting Chicago Crime Data in the HDFS by name of "ChicagoCrimeParquet" 
as a Table 
//We are also using "mode" which provides the instruction 
//to "Overwrite" the data in case it already exist by that name 
crimeDF.write.mode ("overwrite") .format ("parquet") .saveAsTable 
("ChicagoCrimeParquet") 
//Persisting Chicago Crime Data in the HDFS by name of "ChicagoCrime.parquet" 
ina 
//path/ directory that already exists on HDFS. 
crimeDF.write.mode ("overwrite") .format ("parquet") .save("/ 
spark/sql/hiveTables/parquet/") 


//Read and print the Parquet tables from the HDFS 
val parquetDFTable = hiveCtx.read.format ("parquet"). 
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table ("ChicagoCrimeParquet") 

println("Count of Rows in Parquet Table = "+parquetDFTable. count ()) 
printin("Printing Schema of Parquet Table") 
parquetDFTable.printSchema () 


//Read the Parquet data from the Specified path on HDFS 

val parquetDFPath = hiveCtx.read.format ("parquet") .load("/ 
spark/sql/hiveTables/parquet/") 

println("Count of Rows in Parquet Table, Loaded from HDFS Path = 
"+parquetDFPath. count () ) 

println("Printing Schema of Parquet Table, Loaded from HDFS Path") 
parquetDFPath.printSchema () 


前 面 的 代码 以 表格 的 形式 将 芝加哥 犯罪 数据 保存 到 HDFS 中 ， 同 时 它 还 将 相同 的 数 

据 保 存 到 HDFS 目录 (/spark/sql/hiveTables/parquet/) 中 。 
(5) 接 下 来 需要 在 HDFS 中 创建 同 作业 中 所 指定 的 一 致 的 目录 结构 。 在 Linux 控制 

台 上 执行 以 下 命令 : 

$HADOOP_HOME/bin/hdfs dfs -mkdir /spark 

$HADOOP HOME/bin/hdfs dfs -mkdir /spark/sql 

$HADOOP HOME/bin/hdfs dfs -mkdir /spark/sql/hiveTables 

$HADOOP HOME/bin/hdfs dfs -mkdir /spark/sql/hiveTables/parquet 


(6) 最 后 ， 使 用 spark-submit 命令 执行 作业 。 如 果 驱 动 程序 控制 台 上 没有 错误 ， 那 
么 数据 将 保留 在 HDFS 中 ， 并 且 可 以 从 Hadoop UI 本 身 进行 浏览 。 
图 8.6 显示 了 在 HDFS 中 以 Spark 作业 创建 的 Parquet 表 。 


Browse Directory 


usermivewarenouse 


Permission Group Size Replication Block Size 


drwxr-xr-x supergroup 08 0 06 








图 8.6 
图 8.7 显示 了 在 HDFS 中 以 Spark 作业 在 其 中 指定 位 置 创建 的 Parquet 数据 文件 。 
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Browse Directory 








842 ”数据 分 区 和 模式 演化 /合并 


Spark SQL 还 支持 数据 分 区 和 模式 合并 ， 这 对 用 户 / 开 发 人 员 来 说 是 透明 的 ， 就 是 说 
不 需要 额外 的 开发 工作 或 代码 就 能 使 用 这 两 个 特性 。 下 面 简 单 地 谈 谈 这 两 个 概念 以 及 如 
何 使 用 Spark SQL 来 处 理 它们 。 

1. 数据 分 区 

分 区 是 数据 库 中 一 种 常见 的 优化 技术 (https://en.wikipedia.org/wiki/Partition (database))。 
在 Hive 中 , 分 区 后 表 里 数 据 存储 在 HDFS 的 不 同 目录 内 ， 为 加 载 表 里 的 所 有 分 区 ， 只 需要 
提供 HDFS 内 的 基本 位 置 ， 这 里 已 经 存储 了 Parquet 表 。Spark SQL 将 自动 发 现 与 该 表 相 关 
联 的 分 区 ， 并 将 其 加 载 到 Spark 内 存 中 。 启 用 分 区 自动 发 现 的 参数 是 spark.sql.sources. 
partitionColumnTypeInference.enabled。 默 认 情况 下 它 是 启用 的 ， 因 此 用 户 /开发 人 员 可 以 无 
颖 工作 ， 不 需要 对 代码 进行 任何 更 改 。 

2. 模式 演化 /合并 

企业 中 的 数据 从 来 都 不 是 静态 的 ， 而 是 不 断 在 演化 着 ， 表 现在 基于 从 外 部 世界 所 接收 
数据 形成 新 的 参数 、 列 或 结构 。 数 据 结构 的 变化 是 不 可 避免 的 ， 但 是 很 难保 证 创建 新 的 模 
式 ， 并 在 每 次 结构 有 变化 时 就 能 将 相同 数据 加 载 到 新 模式 上 去 。ProtocolBuffer (https:// 
developers.google.com/ protocol-buffers/?hl-en) . Avro (https://avro.apache.org/), Thrift Chttps:// 
thriftapache.org/) 和 Parquet 是 一 些 支 持 模式 演化 和 合并 的 数据 格式 。Spark SQL 扩展 了 相 
同 的 概念 ， 并 提供 了 与 Parquet 数据 格式 合并 的 模式 实现 。 也 就 是 说 ， 从 用 户 /开发 人 员 那 
里 抽象 出 了 完整 实现 ， 它 可 以 通过 最 少 的 必需 代码 工作 来 启用 。 模 式 演化 /合并 是 一 种 代价 
高 昂 的 操作 ， 当 使 用 这 个 功能 时 需要 格外 小 心 ， 因 此 默认 情况 下 它 处 于 关闭 状态 。 

开发 人 员 需 要 执行 以 下 任 一 操作 以 启用 模式 演化 /合并 : 
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口 在 SparkConf 中 将 全 局 SQL 选项 spark.sql.parquet.mergeSchema 配置 为 true。 
Q 在读 取 Parquet 数据 时 将 mergeSchema 配置 为 true: 
hiveContext .read.option("mergeSchema", "true").parquet ("«name of Table>") 


在 本 节 中 使 用 适当 的 示例 讨论 了 Spark SQL 中 Parquet 数据 格式 的 集成 和 支持 下 面 继 
续 下 一 节 ， 讨 论 Spark SQL 和 Apache Hive 的 集成 。 

















8.5 Hive 表 的 集成 


在 本 节 中 ， 将 讨论 Spark SQL 与 Hive 表 的 集成 ， 将 看 到 在 Spark SQL 中 执行 Hive 查 
询 的 过 程 ， 这 有 助 于 在 HDFS 中 创建 和 分 析 Hive 表 。 
Spark SQL 提供 了 应 用 Spark SQL 代码 库 直 接 执行 Hive 查询 的 灵活 性 。 最 好 的 一 面 是 
在 Spark 集群 上 执行 Hive 查询 ， 只 需要 设置 HDFS 来 读 取 和 存储 Hive 表 。 换 句 话说 ， 不 
需要 配置 一 个 包含 像 ResourceManager 或 NodeManager 这 样 服务 的 完整 Hadoop 集群 ， 只 
需要 HDFS 服务 ， 这 些 服务 在 启动 NameNode 和 DataNode 时 就 可 以 使 用 。 
执行 以 下 步骤 为 芝加哥 犯罪 数据 创建 Hive 表 ， 同 时 还 执行 一 些 分 析 性 的 Hive 查询 : 
CIO 打开 和 编辑 Spark-Examples 项 目 ， 并 添加 一 个 Scala Xf% chaptereight. 
ScalaSparkSQLToHive.scala. 
(2) 编辑 chapter.eight. ScalaSparkSQLToHive.scala 并 添加 以 下 代码 : 
import org.apache.spark.sql. 


import org.apache.spark._ 
import org.apache.spark.sql.hive.HiveContext 


object ScalaSparkSQLToHive { 
def main(args:Array[String]) { 


//Defining/ Creating SparkConf Object 

val conf = new SparkConf () 

//Setting Application/ Job Name 

conf.setAppName ("Spark SQL - RDD To Hive") 

// Define Spark Context which we will use to initialize our SQL Context 
val sparkCtx - new SparkContext (conf) 

//Creating Hive Context 
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val hiveCtx = new HiveContext (sparkCtx) 
//Creating a Hive Tables 
println("Creating a new Hive Table - ChicagoCrimeRecordsAug15") 
hiveCtx.sql("CREATE TABLE IF NOT EXISTS 
ChicagoCrimeRecordsAugl5 (ID STRING,CaseNumber STRING, 
CrimeDate STRING,Block STRING,IUCR STRING, PrimaryType STRING, 
Description STRING,LocationDescription STRING,Arrest STRING, 
Domestic STRING,Beat STRING,District STRING,Ward STRING, 
CommunityArea STRING,FBICode STRING,XCoordinate STRING, 
YCoordinate STRING,Year STRING,UpdatedOn STRING, 
Latitude STRING,Longitude STRING) ROW 
FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile") 
println("Creating a new Hive Table - iucrCodes") 
hiveCtx.sql("CREATE TABLE IF NOT EXISTS iucrCodes( 


IUCR STRING, PRIMARY DESC STRING ,SECONDARY DESC STRING, INDEXCODE STRING) 


ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile") 
//Load the Data in Hive Table 
println("Loading Data in Hive Table - ChicagoCrimeRecordsAugl5") 
hiveCtx.sql("LOAD DATA LOCAL INPATH '/home/ec2-user/softwares 
/crime-data/Crimes -Aug-2015.csv' OVERWRITE INTO TABLE 
ChicagoCrimeRecordsAugl5") 
println("Loading Data in Hive Table - iucrCodes") 
hiveCtx.sql("LOAD DATA LOCAL INPATH '/home/ec2-user/softwares/ 
crime-data/IUCRCodes.csv' OVERWRITE INTO TABLE iucrCodes") 
//Quick Check on the number of records loaded in the Hive Table 
println("Quick Check on the Number of records Loaded in 
ChicagoCrimeRecordsAugl5") 


hiveCtx.sql("select count(1) from ChicagoCrimeRecordsAugl5"). show() 
println("Quick Check on the Number of records Loaded in iucrCodes") 


hiveCtx.sql("select count(1) from iucrCodes").show() 


println("Now Performing Analysis") 
println("Top 5 Crimes in August Based on IUCR Codes") 


hiveCtx.sql ("select B.PRIMARY DESC, count(A.IUCR) as countIUCR from 


ChicagoCrimeRecordsAugl5 A,iucrCodes B where A.IUCR-B.IUCR group by 
B.PRIMARY DESC order by countIUCR desc").show(5) 


printin("Count of Crimes which are of Type 'Domestic' and someone is 


'Arrested' by the Police") 
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hiveCtx.sql("select B.PRIMARY DESC, count(A.IUCR) as countIUCR from 
ChicagoCrimeRecordsAugl5 A,iucrCodes B where A.IUCR-B.IUCR and 
A.domestic-'true' and A.arrest-'true' group by B.PRIMARY DESC order by 
countIUCR desc").show() 


println ("Find Top 5 Community Areas where Highest number of Crimes have 
been Committed in Aug-2015") 
hiveCtx.sql("select CommunityArea, count(CommunityArea) as cnt from 
ChicagoCrimeRecordsAugl5 group by CommunityArea order by cnt 
desc").show(5) 
} 
} 


前 一 段 代 码 首 先 创建 HiveContext， 然 后 利用 HiveQL  https://cwiki.apache.org/ 


confluence/display/Hive/LanguageManual) 来 创建 Hive 表 ， 在 Hive 表 中 加 载 数 据 ， 最 后 执 
行 各 种 分 析 。 


至 此 ， 完 成 了 Spark 作业 的 编码 ， 现 在 必须 执行 以 下 配置 才能 执行 Spark SQL 作业 ; 
(1) 通过 浏览 网 址 http://<HOST_NAME>:50070/ 确 保 Hadoop HDFS 已 启动 并 正在 


运行 。 它 应 该 显示 Hadoop NameNode UI。 如 果 访 问 该 网 址 不 显示 NameNode 主页 ， 请 按 
照 第 7 章 “ 使 用 RDD 编程 ”中 “编程 Spark 转换 及 操作 部 分 所 指定 的 步骤 来 配置 Hadoop 
和 HDFS. 





(2) 下 一 步 是 在 Spark 安装 中 配置 Apache Hive 参数 ， 可 以 通过 创建 hive-site xml XX 


件 并 将 其 放 在 SSPARK_HOME/conf 文件 夹 中 来 轻松 完成 。 如 果 已 经 安装 了 Hive， 那 么 只 
将 hive-site xml 从 Hive 安装 目录 复制 到 $SPARK_HOME/conf 文件 夹 即 可 。 如 果 没 有 该 文 
件 ， 那 么 创建 一 个 新 文件 SSPARK_HOME/conf/hive-site.xml， 并 在 其 中 添加 以 下 内 容 : 


<configuration> 
<property> 
<name>javax.jdo.option.ConnectionURL</name> 
<value>jdbc: derby: ; databaseName=/home/ec2-user/softwares/hive- 
1.2.1/metastore/metastore db;create=true</value> 
<description>JDBC connect string for a JDBC metastore</ description> 
</property> 


</configuration> 


上 述 配置 是 执行 Hive 查询 所 需 的 最 基本 配置 。 该 属性 定义 了 Hive Metastore DB 的 位 
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该 位 置 将 包含 有 关 Hive 表 的 所 有 元 数据 。 需 要 留意 这 个 属性 ， 因 为 如 果 Metastore 
被 删除 ， 就 无 法 访问 任何 Hive 表 。 
(3) 至 此 ， 完 成 了 所 有 的 配置 ， 最 后 一 步 是 导出 Eclipse 项 目 ， 并 使 用 spark-submit 
执行 Spark SQL 工作 : 


$SPARK HOME/bin/spark-submit --class chapter.eight. 
ScalaSparkSQLToHive --master spark: //ip-10-184-194-147:7077 spark-examples.jar 


一 旦 在 Linux 控制 台 上 执行 上 述 命令 ，Spark 就 会 让 工作 开始 执行 ， 并 在 控制 台 上 进 
一 步 分 析出 结果 。 结 果 将 类 似 于 图 8.8 所 示 。 


[Creating a new Hive Table - Chicagocr TmeRecordsAug. 
creating a new Hive Table - icurcodes 
Loading Data in Hive Table - Chicagocrimerecordsaugl5 
Loading Data in Hive Table - iucrcodes 
ick Check on the Number of records Loaded in chicagocrimeRecordsauglS 






d on IUCR Codes 





CRIMINAL DAMAGE| 
NARCOTICS| 
OTHER OFFENSE | 
DECEPTIVE PRACTICE| 
CRIMINAL TRESPASS| 


only showing top 5 rows 


lcount of crimes which are of Type ‘Domestic’ and someone is ‘arrested’ by the Police 
n 





NSE | 

CRIMINAL DAMAGE | 
ASSAULT | 
[OFFENSE INVOLVING...| 
CRIMINAL TRESPASS| 
WEAPONS VIOLATION| 
KIDNAPPING| 

| | 


2511534| 
8| 861| 
43| 804| 
32| 757| 
29| 7301 


only showing top 5 rows 











图 8.8 
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上 面 的 屏幕 截图 显示 了 在 驱动 程序 控制 台 上 ， Spark SQL 作业 中 执行 Hive 查询 的 输出 。 
Spark 还 提供 了 一 个 可 以 在 Linux 控制 台 上 执行 的 实用 程序 (SSPARK HOME/ 
bin/spark-sql)， 用 其 可 以 执行 所 有 的 Hive 查询 ， 并 在 同一 控制 台 上 查看 结果 ， 这 有 助 于 
快速 开发 Hive 查询 , 还 可 以 通过 在 Hive 查询 的 开头 附加 explain 关键 字 来 分 析 Hive 查询 
的 性 能 。 
g$ AK HiveQL 语法 的 更 多 信息 ， 请 参阅 https//cwiki.apache.org/confluence/ 
display/Hive/LanguageManual. 


重要 的 是 ,Spark 上 的 Hive 与 Hive 上 的 Spark 不 同 。 之 前 讨论 了 使 用 Spark SQL API 
执行 Hive 查询 的 场景 ，Spark API 基本 上 称 为 Hive 上 的 Spark。Spark 上 的 Hive 是 一 个 
单独 的 议题 ， 这 里 讨论 添加 Spark 作为 Apache Hive 的 第 三 个 执行 引擎 (除了 MapReduce 
和 Tez 外 )。 有 关 Hive 的 更 多 信息 ， 请 参阅 关于 Spark 的 以 下 链接 : 

Q__https://cwiki.apache.org/confluence/display/Hive/Hivet+on+Spark%3A+Getting+ Started 

Q https://ewiki.apache.org/confluence/display/Hive/Hivet+on+Spark 

在 本 节 中 , 讨论 了 Spark SQL 与 Hive 的 集成 及 相应 的 示例 。 下 一 节 将 讨论 Spark SQL 
的 性 能 调 优 和 最 佳 实践 。 

















8.6 性 能 调 优 和 最 佳 实践 


在 本 节 中 , 将 讨论 用 于 优化 Spark 作业 性 能 的 各 种 策略 , 还 会 讨论 关于 Spark 和 Spark 
SQL 的 最 佳 实践 。 

性 能 调 优 不 但 非常 主观 ， 而 且 为 完全 开放 的 表述 。 性 能 调 优 的 第 一 步 是 回答 此 问题 : 
“我 们 的 工作 真 需要 性 能 调 优 吗 ? ”在 回答 这 个 问题 之 前 ， 需 要 考虑 以 下 几 个 方面 : 

O 我 们 的 工作 是 否 符合 企业 规定 的 SLA〔 服 务 等 级 协议 ) ? 如 果 是 ， 则 不 需要 性 

Q ”我 们 想 要 达到 什么 目标 , 它 现 实 吗 ? 例如 ,期 望 所 有 Spark 作业 (不 考虑 数据 大 

小 或 执行 的 计算 ) 以 毫秒 为 单位 完成 是 不 现实 的 。 

只 有 回答 和 明确 了 性 能 调 优 的 必要 性 ， 才 能 继续 前 进 ， 思 考 战略 ， 并 开始 确定 在 哪 
些 方面 可 以 调整 Spark 作业 。 

虽然 没有 性 能 调整 的 标准 指南 ， 但 在 性 能 调整 策略 中 ， 应 该 考虑 到 一 些 常见 的 方面 。 
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86.1 分 区 和 并 行 性 


Spark 作业 将 执行 器 内 存 中 的 数据 加 载 ， 并 进一步 划分 为 执行 的 不 同 阶段 ， 从 而 形成 
执行 流水 线 。 数 据 集中 的 每 个 字 节 由 RDD 表示 ,执行 流水 线 称 为 有 向 非 循环 图 (DAG). 
在 执行 流水 线 的 每 个 阶段 中 涉及 的 数据 集 被 进一步 存储 在 大 小 相等 的 数据 块 中 ， 这 
些 数据 块 只 是 由 RDD 表示 的 分 区 。 
Qo 有 关 分 区 的 更 多 信息 ， 请 参阅 第 7 章 “使 用 RDD 编程 ”里 “编程 Spark 转 
换 及 操作 ”部 分 。 

最 后 ， 对 于 每 个 分 区 只 有 一 个 任务 分 配 /执行 。 所 以 工作 的 并 行 性 直接 取决 于 为 工作 
配置 的 分 区 数 ， 这 可 以 通过 在 $SPARK HOME/conf/spark-defaults.conf 中 定义 
spark.default parallelism 来 控制 。 需 要 对 其 适当 配置 以 使 Spark 作业 获得 足够 的 并 行 性 。 
一 般 规则 是 将 并 行 性 配置 为 集群 中 总 核心 数 的 至 少 两 倍 ， 但 这 是 一 个 原始 的 最 小 值 ， 为 
读者 提供 了 一 个 参考 起 点 ， 可 能 因 不 同 的 工作 负载 而 有 各 自 的 差异 取 值 。 

除非 由 RDD 指定 ，Spark 默认 使 用 org.apache.spark.HashPartitioner 的 值 ， 并 且 最 大 
分 区 数 的 默认 值 将 与 上 游 最 大 RDD 中 的 分 区 数 相同 。 

S 可 参考 http//www.bigsynapse.com/spark-input-output 获取 有 关 分 区 与 并 行 性 
的 更 多 信息 。 





8.6.2 序列 化 


Spark 作业 要 在 集群 节点 上 移动 /删除 被 处 理 的 数据 , 因此 Spark 框架 需 对 数据 集 进行 
序列 化 和 反 序 列 化 。 例 如 ， 通 过 序列 化 和 反 序 列 化 在 工作 者 节点 之 间 删 除数 据 或 将 RDD 
持久 化 存储 到 磁盘 。 任 何 缓慢 的 序列 化 或 反 序 列 化 过 程 都 将 导致 总 体 工作 的 缓慢 。 

默认 情况 下 ，Spark 使 用 与 大 多 数 文件 格式 兼容 的 Java 序列 化 机 制 ， 然 而 它 也 很 慢 。 

可 以 切换 到 Kryo 序列 化 (https://github.com/EsotericSoftware/kryo)， 它 非常 紧凑 并 且 
H Java 序列 化 快 。 尽管 它 不 支持 所 有 可 序列 化 类 型 ,但 比 兼 容 所 有 文件 格式 的 Java 序列 
化 机 制 快 得 多 。 可 以 通过 在 SparkConf 对 象 中 配置 spark.serializer 来 配置 作业 以 使 用 Kryo 
序列 化 : 


conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") 


KryoSerializer 默认 将 完整 的 类 名 及 其 相关 对 象 存储 在 Spark 执行 器 的 内 存 中 ， 这 也 








+192 实时 大 数据 分 析 一 一 基于 Storm, Spark 技术 的 实时 应 用 


造成 了 内 存 的 浪费 。 为 优化 这 一 问题 ， 建 议 预先 将 所 有 需要 的 类 注册 到 KryoSerializer, 
如 此 以 使 所 有 对 象 映射 到 类 ID 而 非 完整 的 类 名 。 这 可 以 通过 使 用 SparkConf. 
registerKryoClasses() 定 义 所 有 需要 的 类 的 显 式 注册 方式 来 实现 。 
未 可 参考 https;//github.com/EsotericSoftware/kryo 里 的 Kryo 文档 获取 有 关 参 数 
优化 和 兼容 文件 格式 的 更 多 信息 。 








8.6.3 BF 


可 以 通过 调用 sglContext.cacheTable("tableName")8X, dataFrame.cache() 来 启用 Spark 
SQL 表 的 缓存 。 
Spark SQL 以 扫描 优化 的 分 列 格式 来 缓存 所 有 表格 。Spark SQL 自动 优化 和 压缩 缓存 
的 表 ， 不 过 可 以 通过 调用 sqlContextuncacheTable("tableName") 从 缓存 中 删除 表 来 释放 内 
存 。 可 使 用 以 下 两 个 参数 进一步 调整 内 存 中 的 缓存 。 
Ob spark.sqlinMemoryColumnarStorage.compressed: 此 参数 用 于 使 用 Spark 框架 提 
供 的 压缩 编 解码 器 自动 压缩 内 存 中 数据 。 默 认 值 为 true。 
口 spark.sqlinMemoryColumnarStorage.batchSize: Spark SQL 中 的 数据 批量 缓存 。 
批量 越 大 , 性 能 越 好 , 但 是 更 大 的 批量 也 可 以 导致 实例 OOM (内 存 不 足 ) 发 生 ， 
因此 需要 在 修改 默认 值 之 前 仔细 分 析 它 们 。 默 认 值 为 10 000。 


8.6.4 内 存 调 优 


Spark 是 一 个 基于 JVM 的 执行 框架 , 因此 调整 JVM 以 获得 正确 的 工作 负载 也 能 够 显 
著 提高 Spark 作业 的 整体 响应 时 间 。 首 先 应 该 关注 这 几 个 方面 : 
口 ” 垃 圾 收集 作为 第 一 步 ， 需 要 发 现 当前 的 GC 垃圾 收集 ) 行为 和 统计 信息 ， 因 
此 应 该 在 SSPARK_HOME/conf/spark-defaults.conf 文件 中 配置 以 下 参数 : 














spark.executor.extraJavaOptions = -XX:+PrintFlagsFinal 
-XX:+PrintReferenceGC -Xloggc:$JAVA HOME/jvm. 

log -XX:+PrintGCDetails -XX:+PrintGCTimeStamps 
~-XX:+PrintAdaptiveSizePolicy 


如 此 一 来 , 可 打印 GC 详细 信息 并 在 SJAVA_HOME/jvm.log 中 获取 。 可 以 进一步 分 析 
JVM 的 行为 ， 然 后 应 用 各 种 优化 技术 。 
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Qo 有 关 各 种 优化 技术 和 调整 Spark 应 用 程序 GC 的 更 多 详细 信息 ,请 参阅 https/ 
databricks.com/blog/2015/05/28/tuning-java-garbage-collection-for-spark- 
applications.html. 


O “对象 大 小 : 优化 存储 于 内 存 中 对 象 的 大 小 也 可 以 提高 应 用 程序 的 整体 性 能 。 这 
里 有 一 些 提示 ， 有 助 于 改善 对 象 消耗 的 内 存 : 
> ”避免 使 用 包装 器 对 象 或 基于 数据 结构 的 指针 或 包含 大 量 小 对 象 的 柑 套 数据 
结构 。 
> 在 数据 结构 中 使 用 对 象 或 原始 类 型 的 数组 。 例 如 ， 使 用 fastutil 库 
(http://fastutil.di.unimi. iV) 提供 更 快 和 优化 的 集合 类 。 
> ”避免 使 用 字符 串 或 自 定义 对 象 ， 而 是 使 用 数字 作为 对 象 的 ID。 
O ”执行 器 内 存 : 另 一 个 方面 是 配置 Spark 执行 器 的 内 存 ， 也 要 确保 在 Spark 作业 中 
分 配 出 适当 内 存 来 缓存 RDD。 
执行 器 内 存 可 以 通过 定义 SparkConf 对 象 本 身 的 spark.executormemory 属性 或 
$SPARK_HOME/conf/spark-defaults.conf 来 配置 , 或 者 也 可 以 在 提交 工作 时 来 定义 。 可 以 使 
用 如 下 语句 : 





val conf = new SparkConf().set ("spark.executor.memory", "1g") 

或 是 如 此 : 

$SPARK HOME/bin/spark-submit --executor-memory 1g ... 

Spark 框架 〈 默 认 情 况 下 ) 占用 执行 器 所 配置 内 存 的 60% 用 于 缓存 RDD， 这 样 只 保留 
了 40% 的 可 用 内 存 来 执行 Spark 作业 。 这 可 能 不 够 用 ， 如 果 看 到 完整 的 GC 或 缓慢 的 任务 


或 遇 到 内 存 不 足 的 情况 ,那么 可 以 通过 配置 SparkConf 对 象 的 spark.storage.memoryFraction 
参数 以 减少 缓存 大 小 : 


val conf = new SparkConf().set("spark.storage.memoryFraction","0.4") 


此 语句 可 将 为 缓存 RDD 分 配 的 内 存 减 少 到 40% 
最 后 ,还 可 以 考虑 如 Tachyon 这 样 不 使 用 任何 JVM 的 堆 外 缓存 解决 方案 (http://tachyon- 
project.org/Running-Spark-on-Tachyon.html )。 


al 


NSS 有 关 性 能 方面 的 更 多 详细 信息 ， 请 参阅 https://spark.apache.org/ docs/1.5.1/ 
tuning html 和 https://spark.apache.org/docs/1.5.l/configuration.html 了 解 各 种 
可 用 的 配置 参数 。 
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Spark 及 其 扩展 仍 在 发 展 中 , 从 每 个 版 本 中 都 可 看 到 为 实现 更 好 性 能 而 进行 的 相当 大 的 
改变 。 每 个 版 本 的 Spark 可 能 引入 新 的 或 非 推荐 的 各 种 配置 参数 。 有 关 优 化 Spark 1.5.0 的 
Spark SQL 作业 的 其 他 配置 选项 ， 请 参阅 http://spark.apache.org/docs/1.5.1/sql-programming- 
guide.html#other-configuration-options. 

在 本 节 中 ， 讨 论 了 调整 Spark 工作 的 各 个 方面 。 不 管 讨论 多 少 内 容 ， 性 能 提升 总 是 不 
容易 的 ， 也 总 有 新 的 发 现 需要 得 到 专家 的 意见 。 如 果 需 要 专家 的 意见 ， 请 在 Spark 社区 页 
面 (https://spark.apache.org/community. html) 上 发 布 你 的 询问 。 


8.7 本 章 小 结 2a 








在 本 章 中 ， 讨 论 了 以 Spark SQL 作为 一 站 式 解 决 方案 ， 使 用 类 似 SQL 的 查询 和 内 存 
中 的 复杂 过 程 算法 来 处 理 大 数据 ， 并 以 秒 /分 钟 而 不 是 以 小 时 为 单位 生成 结果 。 

本 章 涵盖 了 Spark SQL 架构 和 各 种 组 件 在 内 的 多 个 方面 ， 还 讨论 了 在 Scala 中 编写 
Spark SQL 作业 的 完整 过 程 , 同时 讨论 了 将 Spark RDD 转换 为 DataFrame 的 各 种 方法 。 在 
本 章 的 中 间 部 分 , 执行 了 Spark SQL 的 各 种 示例 , 包括 使 用 如 Hive/Parquet 这 些 不 同 数据 
格式 以 及 如 模式 演化 和 模式 合并 等 重要 方面 ， 最 后 讨论 了 Spark SQL 代码 /查询 的 性 能 调 
优 的 各 个 方面 。 

在 下 一 章 中 将 讨论 使 用 Spark Streaming 捕获 、 处 理 和 分 析 流 数据 。 
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当前 时 代 的 企业 消耗 来 自 各 种 各 样 数据 源 的 数据 。 从 这 些 来 源 传送 的 数据 不 仅 采 用 
不 同 格式 (CSV、 文 本 、Excel 等 )， 同 时 还 可 能 提供 不 同 的 数据 消耗 机 制 。 例 如 ， 一 些 
数据 源 可 以 在 共享 文件 系统 上 提供 特别 定位 ， 或 者 一 些 数 据 源 可 以 提供 数据 流 
Chttps://en.wikipedia. org/wiki/Data_stream)， 或 者 是 基于 排队 的 系统 。 

尽管 有 工具 和 技术 来 处 理 数据 消耗 的 复杂 性 ， 但 真正 的 挑战 常常 在 于 要 有 一 个 能 够 
满足 和 解决 所 有 问题 的 解决 方案 /平台 。 企业 们 纷纷 集中 力量 开发 /部 署 灵 活 和 可 扩展 的 单 
一 平台 ， 以 应 对 数据 消耗 /处 理 的 所 有 复杂 性 ， 并 以 统一 的 格式 来 产生 它 。 

Spark 与 其 扩展 正在 成 为 一 个 可 以 满足 企业 所 有 要 求 的 一 站 式 解决 方案 。 Spark 不 仅 
为 批 处 理 用 例 执行 数据 的 消耗 和 处 理 ， 还 为 自分 布 式 数据 流 提 供 近 实时 数据 的 消耗 和 处 
理 ， 其 处 理 延 迟 以 秒 或 毫秒 为 单位 。 
Spark Streaming 是 另 一 种 扩展 ， 提 供 近 实时 流 数据 的 消耗 和 处 理 。 在 本 章 中 ， 将 讨 
论 Spark Streaming 及 其 各 种 功能 ， 它 们 提供 用 于 近 实 时 消耗 和 处 理 数据 的 API。 此 外 ， 
还 将 讨论 它 与 Spark SQL 的 集成 ， 以 便 近 实时 地 执行 SQL 查询 。 

本 章 将 涵盖 以 下 主题 : 

口 高 级 架构 

Q ”编写 第 一 个 Spark Streaming 作业 

Q ”实时 查询 流 数据 

Q ”部署 和 监测 





91 高 级 架构 


在 本 节 中 ， 将 讨论 Spark Streaming 的 高 级 架构 ， 还 将 讨论 Spark Streaming 的 重要 组 
件 ， 如 Discreteized Streams、microbatching 等 ， 最 后 还 将 编写 一 个 Spark 流 作 业 ， 以 便 近 
实时 消耗 和 处 理 数据 。 

Spark Streaming 是 Spark 提供 的 强大 扩展 之 一 ,用 于 近 实 时 消耗 和 处 理 各 种 数据 源 生 
成 的 事件 .Spark Streaming 扩展 了 Spark 核心 架构 ,并 生成 基于 小 微 批 处 理 (microbatching) 
的 新 架构 ， 从 各 种 数据 源 接收 和 采集 实时 / 流 数 据 ， 并 进一步 划分 成 一 系列 确定 性 的 微 批 
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次 (microbatch)。 每 个 微 批 次 的 大 小 基本 上 由 用 户 提供 的 批 处 理 持 续 时 间 控 制 。 为 了 更 
好 理解 ， 下 面 举例 说 明 ， 一 个 应 用 程序 接收 每 秒 20 个 事件 的 实时 / 流 数据 ， 其 中 由 用 户 提 
供 的 批 处 理 持续 时 间 是 2 秒 。 现 在 ，Spark Streaming 将 在 数据 到 达 时 连续 消耗 数据 ， 不 
过 每 2 秒 之 后 它 将 创建 接收 到 数据 的 微 批 次 (每 个 批 次 由 40 个 事件 组 成 )， 并 将 其 提交 
给 用 户 定义 的 作业 以 进一步 处 理 。 这 里 最 重要 的 决策 是 定义 合适 长 短 的 批 处 理 持续 时 间 。 
批 处 理 持续 时 间 只 是 业务 针对 特定 用 例 所 同意 的 可 接受 延迟 ， 可 以 是 几 秒 钟 或 几 毫 秒 。 

在 本 书 所 给 的 例子 中 是 2 秒 。 这 些微 批 次 在 Spark Streaming 中 被 称 为 DStreams 或 
Discretized Streams， 这 不 过 是 一 系列 弹性 分 布 式 数据 集 (RDDs)。 

下 一 节 ， 将 讨论 Spark Streaming 的 架构 和 每 个 组 件 。 





























9.1.1 Spark Streaming 的 组 件 


在 本 节 中 ， 将 深入 了 解 Spark Streaming 的 架构 和 各 种 组 件 。 任 意 Spark Streaming 应 
用 的 高 级 架构 类 似 于 图 9.1 所 示 。 
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图 9.1 


9.1 显示 了 使 用 Spark Streaming 开发 任意 Spark 作业 的 高 级 架构 , 定义 了 如 输入 数 
据 流 、 输 出 数据 流 等 各 种 架构 组 件 。 每 个 组 件 都 有 自己 的 生命 周期 ， 并 在 整体 架构 中 发 
挥 关键 作用 。 下 面 来 了 解 和 讨论 每 个 组 件 的 作用 。 

O 输入 数据 流 (Input Data Streams) : 这 些 是 输入 数据 源 , 基本 上 是 以 极 高 频率 ( 秒 

或 毫秒 ) 发 射 实 时 / 流 数据 的 源 。 这 些 源 可 以 是 原始 套 接 字 、 文 件 系 统 乃 至 如 
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Kafka 这 样 高 度 可 扩展 的 排队 产品 。Spark Streaming 作业 通过 各 种 可 用 的 连接 器 
连接 到 输入 数据 源 。 这 些 连 接 器 可 能 与 Spark 发 行 版 一 起 提供 , 或 者 需要 单独 下 
载 它 们 并 在 Spark Streaming 中 配置 其 工作 。 这 些 输入 流 也 称 为 输入 DStream。 
基于 连接 器 的 可 用 性 ， 输 入 数据 源 分 为 以 下 类 别 。 


> 

















基本 数据 源 : 基本 数据 源 的 连接 器 及 其 所 有 依赖 关系 随 Spark 的 标准 发 行 版 
一 并 提供 ， 不 必 下 载 其 他 包 令 其 工作 。 

高 级 数据 源 : 这 些 连接 器 所 需 的 连接 器 和 依赖 关系 没有 包含 在 Spark 的 标准 
发 行 版 中 。 这 样 做 只 是 为 了 避免 复杂 性 和 版 本 冲突 ， 需 要 单独 下 载 和 配置 
这 些 连接 器 的 依赖 关系 ， 或 者 按照 每 个 数据 源 的 集成 指南 中 的 指示 ， 在 
Maven 脚本 中 提供 依赖 关系 ， 这 些 高 级 数据 源 的 集成 指南 网 址 如 下 : 

Y Kafka Chttp://tinyurl.com/oew96sg ) 

Y Flume (http://tinyurl.com/o4ntmdz ) 

v Kinesis Chttp://tinyurl.com/pdhtgu3 ) 





有 关 可 用 高 级 数据 源 的 列表 请 参阅 http://tinyurl.com/psmtpco. 

Spark 社区 还 提供 了 其 他 连接 器 ， 可 以 从 http://spark-packages.org 直接 下 载 。 
开发 自 定义 连接 器 ， 可 查看 http://tinyurl.com/okrd34e。 

Qs Spark Streaming 作业 (Spark Streaming Job) : Spark Streaming 作业 是 由 用 户 开 
发 的 用 于 近 实 时 消耗 和 处 理 数据 馈送 的 自 定义 作业 ， 包 括 以 下 组 件 。 


> 


数据 接收 器 : 这 是 专用 于 接收 /消耗 数据 源 产 生 数据 的 接收 器 。 每 个 数据 源 
都 有 自己 的 接收 器 ， 既 不 能 通用 ， 也 不 能 在 各 数据 源 中 共用 。 

批 次 : 这 是 由 接收 器 在 该 时 间 段 内 接收 消息 的 集合 。 每 个 批 次 都 有 特定 数 
量 消息 或 数据 ， 其 在 用 户 提供 的 特定 时 间 间 隔 〈 批 处 理 窗口 ) 中 收集 得 到 。 
这 些微 批 次 只 是 一 系列 称 为 DStreams 的 RDD。 

DStreams: 这 是 一 个 新 的 流 处 理 模 型 , 其 中 计算 被 构造 为 小 时 间 间 隔 的 一 系 
列 无 状态 、 确 定性 批 次 计算 。 这 种 新 的 流 处 理 模型 具有 强大 的 恢复 机 制 (类 
似 于 批 处 理 系统 中 的 恢复 机 制 ) ， 并 且 胜 过 复制 和 上 游 备份 。 它 扩展 和 利 
用 了 弹性 分 布 式 数据 集 的 概念 ， 并 在 一 个 单一 DStream 中 创建 一 系列 〈 相 
同类 型 的 ) RDD， 以 用 户 定 义 的 时 间 间 隔 〈 批 处 理 持续 时 间 ) 处理 和 计算 。 
可 以 从 连接 到 各 种 数据 源 〈 如 套 接 字 、 文 件 系 统 等 ) 的 输入 数据 流 创建 
DStream, 也 可 以 通过 对 其 他 DStream (类 似 于 RDD ) 应 用 高 级 操作 来 创建 。 
Spark Streaming 上 下 文中 可 以 有 多 个 DStream， 每 个 DStream 包含 一 系列 
RDD. 每 个 RDD 是 在 特定 时 间 点 从 接收 器 接收 数据 的 快照 。 有 关 DStreams 
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的 更 多 信息 ， 请 参阅 http://tinyurl.com/nnw4xvk。 

> 流 上 下 文 : Spark Streaming 扩展 了 Spark 上 下 文 ,， 并 提供 了 一 个 新 的 上 下 文 
StreamingContext， 用 于 访问 Spark Streaming 的 所 有 功能 和 特性 。 它 是 主要 
入 口 点 ， 并 提供 了 从 各 种 输入 数据 源 初始 化 DStream 的 方法 。 有 关 
StreamingContext 的 更 多 信息 ， 请 参阅 http://tinyurl.com/p5z68gn。 

Q Spark 核心 引擎 (Spark Core Engine) : 这 是 以 RDD 形式 接收 输入 的 核心 引擎 ， 
根据 每 一 用 户 定义 的 业务 逻辑 对 其 进行 进一步 处 理 ， 最 后 将 其 发 送 到 关联 的 输 
出 数据 流 。 

口 “ 输 出 数据 流 (Output Data Streams) : 每 个 处 理 批 次 的 最 终 输出 发 送 到 输出 流 以 
进行 进一步 处 理 。 这 些 输出 数据 流 可 以 是 原始 文件 系统 、Web 套 接 字 、NoSQL 
等 各 种 类 型 。 

在 本 节 中 讨论 了 Spark Streaming 的 高 级 架构 和 各 种 组 件 。 下 面 继续 前 进 , 讨论 Spark 

Streaming 公开 的 各 种 API 和 操作 ， 然 后 快速 编写 第 一 个 Spark Streaming 作业 。 


9.1.2 Spark Streaming 的 封装 结构 


在 本 节 中 ， 将 讨论 Spark Streaming 所 公开 的 各 种 API 和 操作 。 
1. Spark Streaming API 


所 有 Spark Streaming 类 都 封装 在 org.apache.spark.streaming.* 包 中 。Spark Streaming 定 
义 了 两 个 核心 类 StreamingContext.scala 和 DStream.scala, 它们 提供 了 对 所 有 Spark Streaming 
功能 的 访问 。 下 面 来 查看 一 下 这 些 类 所 执行 的 功能 和 角色 。 

口 org.apache.spark.streaming.StreamingContext: 这 是 Spark Streaming 功能 的 入 口 
点 ， 定 义 了 创建 DStream.scala 对 象 的 方法 ， 还 能 启动 和 停止 Spark Streaming 
作业 。 

Ub org.apache.spark.streaming.dstream.DStream.scala: DStream 或 Discretized Streams 
提供 了 Spark Streaming 的 基本 抽象 ， 提 供 从 实时 数据 创建 的 RDD 序列 或 现 有 
DStreams 的 转换 。 此 类 定义 了 可 以 对 所 有 DStream 执行 的 全 局 操作 ， 还 定义 了 
可 应 用 于 特定 类 型 DStreams 的 一 些 特定 操作 。 

除了 这 些 已 定义 的 类 ，Spark Streaming 还 定义 了 各 种 子 包 ， 用 于 公开 各 种 类 型 输入 接 

收 器 的 功能 。 

Ub org.apache.spark.streaming.kinesis.*: 提供 了 从 Kinesis 消耗 输入 数据 的 类 Chttp:// 

aws.amazon.com/kinesis/) 。 
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org.apache.spark.streaming.flume.*: 提供 了 从 Flume 消耗 输入 数据 的 类 (https:// 
flume.apache.org/) 。 

org.apache.spark.streaming kafka.*: 提供 了 从 Kafka 消耗 输入 数据 的 类 (http:// 
kafka.apache.org/) 。 

org.apache.spark.streaming.zeromq.*: 提供 了 从 ZeroMQ 消耗 输入 数据 的 类 (http:// 
zeromq.org/) 。 

org.apache.spark.streaming.twitter.*: 提供 了 从 推 特 简 讯 使 用 Twitter4J 消耗 输入 
数据 的 类 (http:// twitter4j.org) 。 


Æ X Spark Streaming API 的 更 多 信息 ， 请 参阅 http://tinyurl.com/qz5bvvb 了 
解 Scala API， 参 阅 http://tinyurl.com/nh9wu9d 了 解 Java API. 


2. Spark Streaming 操作 


Spark 提供 了 可 以 在 DStream 上 执行 的 各 种 操作 。 所 有 操作 都 可 分 为 转换 和 输出 操作 。 
下 面 讨论 这 两 类 操作 。 

变换 是 帮助 修改 或 改变 输入 流 中 数据 结构 的 那些 操作 。 它 们 彼此 类 似 ， 并 支持 RDD 
提供 的 几乎 所 有 转换 操作 ， 例 如 map0、flatmap0、union0 等 。 有关 输 入 流 支 持 的 转换 操作 
的 完整 列表 ， 请 参阅 DStream API (http://tinyurl.com/ znfgb8a)。 

除了 由 DStream 定义 的 和 类 似 于 RDD 的 常规 变换 操作 之 外 , DStream 对 流 数据 提供 少 
量 特殊 的 变换 操作 。 下 面 来 讨论 这 些 操作 。 


a 











窗口 操作 : 窗口 是 一 种 特殊 类 型 的 操作 ， 仅 由 DStream 提供 。 窗 口 操作 将 来 自 
一 段 过 去 时 间 间 隔 滑动 窗口 的 所 有 记录 分 组 到 一 个 RDD 中 , 提供 了 定义 需要 分 
析 和 处 理 的 数据 范围 的 功能 。 DStream API 还 提供 了 在 滑动 窗口 上 增 量 聚合 或 处 
理 的 功能 ， 可 以 计算 像 滑动 窗口 上 的 计数 或 最 大 值 之 类 的 聚合 。 有 一 种 窗口 操 
作 由 DStream API 提供 。DStream.scala 中 带 有 Window 前 绥 的 所 有 方法 都 提供 
增 量 聚合 ， 例 如 countByWindow、reduceByWindow 等 。 

变换 操作 : 如 transform() 或 transformWith0) 这 样 的 变换 操作 是 特殊 类 型 的 操作 ， 
提供 执行 任意 RDD 到 RDD 操作 的 灵活 性 。 它 们 从 基本 上 有 助 于 执行 DStream 
API 未 提供 /公开 的 任何 RDD 操作 。 此 方法 还 用 于 融合 批 处 理 和 流 式 处 理 。 可 以 
使 用 批 处 理 过 程 创建 RDD， 并 与 使 用 Spark Streaming 创建 的 RDD 进行 合并 。 
这 种 做 法 有 助 于 跨越 Spark 批 处 理 和 流 式 处 理 的 代码 可 重用 性 ， 例 如 可 能 有 在 
Spark 批 处 理应 用 程序 中 写 好 的 函数 , 而 现在 想 将 它们 用 于 Spark Streaming 应 用 
程序 。 
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O updateStateByKey 操作 : 这 是 由 DStream API 公开 的 用 于 状态 处 理 的 另 一 特殊 操 
作 ， 其 中 每 次 计算 状态 以 新 信息 连续 更 新 。 举 一 个 网 络 服务 器 日 志 的 例子 ， 需 
要 计算 网 络 服务 器 服务 中 所 有 GET 或 POST 请 求 的 运行 计数 ， 这 类 功能 就 可 以 
通过 利用 updateStateByKey 操作 来 实现 。 


GO 请 参 闻 http://tinyurl.conyzh2w6k6 了 解 有 关 由 Spark Streaming 执行 各 种 转换 
操作 的 更 多 信息 。 


口 “ 输 出 操作 : 这 些 操作 有 助 于 处 理 通过 应 用 各 种 变换 产生 的 最 终 输出 。 它 可 能 只 
是 在 控制 台 上 打印 , 或 持久 存储 在 缓存 , 或 如 NoSQL 数据 库 之 类 的 任何 外 部 系 
统 。 输 出 操作 类 似 于 RDD 定义 的 操作 ， 并 触发 用 户 在 DStream〔 同 样 类 似 于 
RDD) 上 定义 的 所 有 转换 。 
从 Spark 1.5.1 开始 ，DStreams 支持 以 下 输出 操作 。 


> 











pint): 是 开发 人 员 用 于 调试 其 作业 的 常见 操作 之 一 ， 在 运行 流 应 用 程序 的 
驱动 节点 控制 台 上 的 DStream 中 打印 每 批 数据 的 前 10 个 元 素 。 
saveAsTextFiles(prefix,suffix): 将 DStream 的 内 容 保存 为 文本 文件 。 每 个 批 
处 理 的 文件 名 通过 附加 前 级 和 后 级 生成。 

saveAsObjectFiles(prefix,suffix): 将 DStream 的 内 容 保存 为 序列 化 Java 对 象 
的 序列 文件 。 每 个 批 处 理 的 文件 名 通过 附加 前 缀 和 后 缀 生成 。 
saveAsHadoopFiles(prefix,suffix): 这 将 DStreams 的 内 容 保存 为 Hadoop 文件 。 
每 个 批 处 理 的 文件 名 通过 附加 前 级 和 后 级 生成 。 

foreachRDD(func): 这 是 处 理 输出 的 最 重要 、 广 泛 使 用 并 通用 的 函数 之 一 。 
它 将 给 定 的 函数 func 应 用 于 从 流 生成 的 每 个 RDD。 此 操作 可 用 来 编写 自 定 
义 业务 逻辑 ， 以 便 在 外 部 系统 中 保留 输出 ,， 例 如 保存 到 NoSQL 数据 库 或 写 
入 Web 套 接 字 。 需 要 重点 注意 的 是 ， 此 函数 在 运行 流 式 应 用 程序 的 驱动 节 
点 上 执行 。 





在 本 节 中 , 讨论 了 Spark Streaming 的 高 级 架构 、 组 件 和 封装 结构 ,还 讨论 了 DStream API 
提供 的 各 种 转换 和 输出 操作 。 继续 前 进 , 用 Scala 和 Java 编写 第 一 个 Spark Streaming 作业 。 


9.2 编写 第 一 个 Spark Streaming 作业 


在 本 节 中 , 将 讨论 用 Scala 来 编写 并 执行 第 一 个 Spark SQL。 此 处 也 将 通过 创建 临时 流 
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92.1 创建 流 生成 器 


创建 流 生 成 器 可 执行 以 下 步骤 ， 其 连续 从 控制 台 读 取 用 户 提供 的 输入 数据 ， 然 后 进 
一 步 将 该 数据 提交 到 套 接 字 : 
(1) 打开 并 编辑 Spark-Examples 项 目 ， 创 建 一 个 名 为 chapter.nine.StreamProducer. 
java 的 新 Java 包 和 类 。 
(2) 编辑 StreamProducer java 并 添加 以 下 代码 段 : 





import java.net.*; 
import java.io.*; 


public class StreamProducer { 
public static void main(String[] args) { 


if (args == null || args.length < 1) { 
System.out.println ("Usage - java chapter.nine.StreamProducer 
<port#>"); 
System.exit (0); 
) 
System.out.println("Defining new Socket on " + args[0]); 
try (ServerSocket soc = new ServerSocket (Integer.parseInt(args[0]))) { 


System.out.println("Waiting for Incoming Connection on " 
* args[0]); 
Socket clientSocket = soc.accept(); 
System.out.println("Connection Received"); 
OutputStream outputStream = clientSocket.getOutputStream(); 
// Keep Reading the data in an Infinite loop and send it over to the Socket. 
while (true) ( 
PrintWriter out = new PrintWriter(outputStream, true); 
BufferedReader read = new BufferedReader (new InputStreamReader ( 
System.in)); 
System.out.println("Waiting for user to input some data"); 
String data = read.readLine(); 


System.out.println("Data received and now writing it to Socket"); 
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out.println (data); 


) catch (Exception e) ( 


$ 
) 


至 此 ， 完 成 了 流 生成 器 。 这 一 过 程 很 简单 直接 。 首 先 打开 服务 器 套 接 字 以 便 客户 端 可 
以 连接 ， 然 后 无 限 等 待 用 户 的 输入 。 一 旦 接收 到 输入 ， 会 立即 将 相同 的 输入 发 送 到 连接 的 
客户 端 。 客 户 端 可 以 是 任何 消费 者 ， 不 过 在 当前 情况 下 ， 将 是 在 下 一 部 分 中 创建 的 Spark 


e.printStackTrace(); 


Streaming 作业 。 


转 到 下 一 部 分 ， 将 在 Scala 和 Java 中 创建 流 工作 、 接 受 和 转换 流 生成 器 生成 的 数据 。 


9.2.2 用 Scala 编写 Spark Streaming 作业 


执行 以 下 步骤 ， 用 Scala 编写 第 一 个 Spark Streaming 作业 : 


(1) 在 Spark-Examples 项 目 中 创建 一 个 名 为 chapternine.ScalaFirstSparkStreamingJob.scala 


的 新 Scala 对 象 。 
(2) 编辑 ScalaFirstSparkStreamingJob.scala 并 添加 以 下 代码 段 : 


package chapter.nine 


import 
import 
import 
import 
import 
import 
import 


org 
org 


org. 
org. 
org. 
org. 
org. 


-apache. 
-apache. 


apache. 
apache. 
apache. 
apache. 
apache. 


Spark. 
Spark. 
Spark. 
Spark. 
Spark. 
Spark. 
Spark. 


SparkConf 
streaming.StreamingContext 
streaming. 

storage.StorageLevel. 

rdd.RDD 
streaming.dstream.DStream 
streaming.dstream.ForEachDStream 


object ScalaFirstSparkStreamingJob { 


def main(args:Array[String]) { 


print1n ("Creating Spark Configuration") 
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//Create an Object of Spark Configuration 
val conf = new SparkConf () 
//Set the logical and user defined Name of this Application 


conf.setAppName ("Our First Spark Streaming Application in Scala") 


println("Retrieving Streaming Context from Spark Conf") 

//Retrieving Streaming Context from SparkConf Object. 

//Second parameter is the time interval at which streaming data will 
be divided into batches 

val streamCtx = new StreamingContext (conf, Seconds (2)) 


/ /Define the type of Stream. Here we are using TCP Socket as text stream, 

//It will keep watching for the incoming data from a specific machine 
(localhost) and port (provided as argument) 

//Once the data is retrieved it will be saved in the memory and in case 
memory 

//is not sufficient, then it will store it on the Disk 

//It will further read the Data and convert it into DStream 

val lines - streamCtx.socketTextStream("localhost", args(0). toInt, 

MEMORY AND DISK SER 2) 


//Apply the Split() function to all elements of DStream 

//which will further generate multiple new records from each record in 
Source Stream 

//And then use flatmap to consolidate all records and create a new 
DStream. 

val words = lines.flatMap(x => x.split(" ")) 


//Now, we will count these words by applying a using map() 
//map() helps in applying a given function to each element in an RDD. 


val pairs = words.map(word => (word, 1)) 


//Further we will aggregate the value of each key by using/ applying 
the given function. 


val wordCounts = pairs.reduceByKey( + ) 
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printValues (wordCounts, streamCtx) 


//Most important statement which will initiate the Streaming Context 
streamCtx.start(); 


//Wait till the execution is completed. 
streamCtx.awaitTermination (); 


/** 
* Simple Print function, for printing all elements of RDD 
Ey) 
def printValues (stream:DStream[ (String, Int) ],streamCtx: 
StreamingContext) { 
stream. foreachRDD (foreachFunc) 
def foreachFunc = (rdd: RDD[(String,Int)]) => { 
val array = rdd.collect() 
println("--------- Start Printing Results---------- "y 
for(res«-array)( 
println (res) 
} 
println("--------- Finished Printing Results-------- my 
} 


} 


至 此 ， 完 成 了 第 一 个 Spark Streaming 作业 的 代码 编写 。 这 次 工作 也 相当 简单 直接 。 它 
从 流 生 成 器 接收 一 些 随机 文字 内 容 ， 并 且 简 单 计 数 单一 字 词 的 出 现 频率 ， 最 终 在 驱动 控制 
台 上 打印 出 同样 的 计数 内 容 。 之 后 将 很 快 执行 此 工作 , 在 此 之 前 先 转 到 下 一 部 分 , 将 用 Java 
编写 相同 的 作业 。 


GS 请 按照 代码 中 提供 的 注释 来 理解 业务 去 辑 和 其 他 操作 。 本 章 和 全 书 均 使 用 同 
样 的 注释 风格 。 
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9.2.3 用 Java 编写 Spark Streaming 作业 





执行 以 下 步骤 用 Java 编写 第 一 个 Spark Streaming 作业 : 
(1) 在 Spark-Examples 项 目 中 创建 一 个 名 为 chapternine JavaFirstSparkStreamingJob java 
的 新 Java 类 。 
(2) 编辑 JavaFirstSparkStreamingJob java 并 添加 以 下 代码 : 


package chapter.nine; 


import java.util.Arrays; 

import org.apache.spark.*; 

import org.apache.spark.api.java.function.*; 
import org.apache.spark.storage.StorageLevel; 
import org.apache.spark.streaming.*; 

import org.apache.spark.streaming.api.java.*; 


import scala.Tuple2; 
public class JavaFirstSparkStreamingJob { 
public static void main(String[] args) { 


System.out.println("Creating Spark Configuration"); 
// Create an Object of Spark Configuration 

SparkConf conf - new SparkConf(); 
// Set the logical and user defined Name of this Application 
conf.setAppName("Our First Spark Streaming Application in Java"); 
System.out.println("Retrieving Streaming Context from Spark 
Cont ja 
// Retrieving Streaming Context from SparkConf Object. 
// Second parameter is the time interval at which streaming 
//data will be divided into batches 

JavaStreamingContext streamCtx = new JavaStreamingContext (conf, 


Durations.seconds (2) ); 


// Define the type of Stream. Here we are using TCP Socket 
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//as text stream 


// 


It will keep watching for the incoming data from a 


//specific machine 


// 
// 


(localhost) and port (provided as argument) 
Once the data is retrieved it will be saved in the 


//memory and in case memory 


il 
// 


// 
// 
// 
// 
// 


is not sufficient, then it will store it on the Disk. 
It will further read the Data and convert it into DStream 


JavaReceiverInputDStream<String> lines = streamCtx. socketTextStream ( 


"localhost", Integer.parseInt (args[0]), 
StorageLevel.MEMORY AND DISK SER 2()); 


Apply the x.split() function to all elements of 
JavaReceiverInputDStream 

which will further generate multiple new records from 
each record in Source Stream 

And then use flatmap to consolidate all records and 


//create a new JavaDStream 


JavaDStream«String» words = lines 


.flatMap (new FlatMapFunction<String, String>() { 
@override 
public Iterable<String> call(String x) { 
return Arrays.asList (x.split(" ")); 


H: 


// Now, we will count these words by applying a using mapToPair() 
// mapToPair() helps in applying a given function to each element 
// in an RDD 

// And further will return the Scala Tuple with 

//"word" as key and value as "count". 

JavaPairDStream«String, Integer» pairs = words 


.mapToPair (new PairFunction<String, String, Integer» () ( GOverride 


public Tuple2«String, Integer» call(String s) 


throws Exception ( 
return new Tuple2«String, Integer»(s, 1); 
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// Further we will aggregate the value of each key by //using/ applying 
the given function. 
JavaPairDStream<String, Integer> wordCounts = pairs 
.reduceByKey (new Function2<Integer, Integer, Integer>() { 
@override 
public Integer call(Integer il, Integer i2) 
throws Exception { 
return il + i2; 
} 
We 


// Lastly we will print First 10 Words. 

// We can also implement custom print method for printing all values, 
// as we did in Scala example. 

wordCounts.print (10) ; 

// Most important statement which will initiate the Streaming Context 
streamCtx.start(); 

// Wait till the execution is completed. 
StreamCtx.awaitTermination(); 


} 
) 


至 此 ， 完 成 了 用 Java 编写 的 第 一 个 Spark Streaming 作业 。 它 仍 执行 与 Scala 作业 相 


同 的 功能 ， 从 Stream 生成 器 接收 一 些 随机 文字 内 容 ， 只 计数 单一 字 词 的 出 现 频 率 ， 最 后 
在 驱动 控制 台 上 打印 结果 。 继 续 前 进 ， 通 过 执行 第 一 个 流 式 作业 来 理解 代码 作用 。 


9.24 #147 Spark Streaming 作业 


在 本 节 中 ， 将 执行 /启动 第 一 个 流 式 作业 并 分 析 控 制 台 上 的 输出 。 执 行 以 下 步骤 来 启 
动 第 一 个 Spark Streaming 作业 : 
(1) 编译 Eclipse 项 目 Spark-Examples 并 将 其 以 名 为 spark-examples.jar 的 JAR 文件 


从 Eclipse 





时 | 





u 
Li o 


(2) 打开 控制 台 并 从 导出 Spark-Examples 项 目的 位 置 执行 以 下 命令 : 
java -classpath spark-examples.jar chapter.nine.StreamProducer 9047 


流 生 成 器 已 在 运行 ， 并 等 待 客户 端 在 9047 端口 连接 。 
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(3) 假设 Spark 集群 已 启动 并 运行 , 打开 一 个 新 的 控制 台 并 执行 以 下 命令 启动 Spark 
Streaming Scala 作业 : 

$ SPARK HOME/bin/spark-submit --class chapter.nine. 

ScalaFirstSparkStreamingJob --master spark: // ip-10-155-38-161: 7077 

spark-examples.jar 9047 


(4) 要 执行 Spark Streaming Java 作业 ， 请 执行 以 下 命令 : 
$ SPARK HOME/bin/spark-submit --class chapter.nine. 


JavaFirstSparkStreamingJob --master spark: // ip-10-155-38-161: 7077 
spark-examples.jar 9047 


此 ， 大 功 告 成 了 ! 是 不 是 很 有 趣 、 简 单 、 直 接 ? 
现在 ， 无 论 在 流 生成 器 的 控制 台 上 输入 什么 内 容 ， 均 将 被 发 送 到 Spark Streaming 作 
业 ， 该 作业 将 进一步 计数 字 词 ， 并 将 在 驱动 控制 台中 打印 出 来 。 图 9.2 显示 了 流 生成 器 所 
产生 的 输出 。 


Jav: asspal 
Defining | new Socket on 9047 
waiting for Incoming Connection on - 


Mello from our First Spark Streaming Job in Scalaconnection Received 
waiting for user to input some data 


Data received and now writing it ize Socket 
waiting for user to input some 





图 9.2 


图 9.3 所 示 的 屏幕 截图 显示 了 流 作 业 生 成 的 输出 ， 它 从 流 生 成 器 接收 输入 ， 然 后 在 控 
制 台 saaan Ed di 


oF FT 
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图 9.3 


在 本 节 中 ， 编 写 并 执行 了 Scala 和 Java 中 的 第 一 个 Spark Streaming 作业 。 继 续 前 进 ， 
扩展 芝加哥 犯罪 示例 ， 并 通过 集成 Spark Streaming 和 Spark SQL 来 执行 一 些 实时 分 析 。 
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93 ”实时 查询 流 数 据 


在 本 节 中 ， 将 扩展 前 面 的 芝加哥 犯罪 示例 ， 并 使 用 Spark SQL 对 流 式 犯 罪 数据 执行 一 
些 实时 分 析 。 

所 有 Spark 的 扩展 均 是 对 Spark 核心 架构 组 件 RDD 进行 扩展 。 现 在 无 论 是 Spark 
Streaming 中 的 DStreasm 还 是 Spark SQL 中 的 DataFrame， 都 可 以 彼此 互相 操作 。 可 以 轻松 
地 将 DStream 转换 为 DataFrame， 反 之 亦 然 。 下 面 继续 了 解 Spark Streaming 和 Spark SQL 
的 集成 架构 。 此 外 ,还 将 于 其 中 实现 相同 的 功能 ， 并 开发 用 于 实时 查询 流 数 据 的 应 用 程序 。 
将 此 作业 称 为 SQL Streaming 犯罪 分 析 器 。 


9.3.1 作业 的 高 级 架构 


此 处 的 SQL Streaming 犯罪 分 析 器 的 高 级 架构 基本 上 包括 以 下 三 个 组 件 。 

口 Crime 生产 者 : 这 是 一 个 从 文件 中 随机 读 取 犯罪 记录 并 将 数据 推送 到 套 接 字 的 生 
产 者 。 在 第 5 章 “ 熟 悉 Kinesis” 的 “创建 Kinesis 流 生产 者 ”部 分 中 下 载 和 配置 
的 犯罪 记录 文件 与 这 里 的 相同 。 

QU Stream 消费 者 : 从 套 接 字 读 取 数 据 并 将 其 转换 为 RDD。 

Q Stream 到 DataFrame 转换 器 : 这 里 消耗 Stream 消费 者 提供 的 RDD, 并 使 用 动态 
模式 映射 进一步 将 其 转换 为 DataFrame。 

一 旦 有 了 DataFrame， 就 可 以 执行 常规 Spark SQL 操作 。 图 9.4 表示 整个 用 例 实现 情况 

下 三 个 组 件 间 的 交互 。 
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继续 前 进 ， 在 下 一 节 编 写 SQL Streaming 犯罪 分 析 器 。 
9.32 编写 Crime 生产 者 


执行 以 下 步骤 来 编写 Crime 生产 者 程序 ， 它 将 从 预定 义 的 文件 中 读 取 Crime GUR 
录 )， 并 将 数据 提交 到 套 接 字 : 
COD. 打开 并 编辑 Spark-Examples 项 目 ， 添 加 一 个 名 为 chapternine.CrimeProducerjava 
的 新 Java 文件 。 


(2) 编辑 CrimeProducerjava 并 在 其 中 添加 以 下 代码 : 


package chapter.nine; 
import java.io.*; 
import java.net.*; 


import java.util.Random; 
public class CrimeProducer { 
public static void main(String[] args) { 


if (args == null || args.length < 1) { 
System.out 
-println ("Usage - java chapter.nine.StreamProducer <port#>") ; 
System.exit (0); 
} 
System.out.println("Defining new Socket on " + args[0]); 


try (ServerSocket soc - new ServerSocket(Integer. parseInt (args[0]))) 
t 


System.out.println("Waiting for Incoming Connection on - " 
+ args[0]); 
Socket clientSocket - soc.accept(); 


System.out.println ("Connection Received"); 
OutputStream outputStream = clientSocket.getOutputStream(); 
// Path of the file from where we need to read crime records. 


String filePath = "/home/ec2-user/softwares/crime-data/ Crimes - 
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Aug-2015.csv"; 
PrintWriter out = new PrintWriter(outputStream, true); 
BufferedReader brReader - new BufferedReader (new FileReader( 
filePath)); 

// Defining Random number to read different number of records each 
// time. 
Random number - new Random(); 
// Keep Reading the data in a Infinite loop and send it over to the 
// Socket. 
while (true) ( 

System.out.println("Reading Crime Records"); 

StringBuilder dataBuilder = new StringBuilder(); 

// Getting new Random Integer between 0 and 60 

int recordsToRead - number.nextInt(60); 


System.out.println("Records to Read = " + recordsToRead); 
for (int i = 0; i « recordsToRead; i++) ( 

String dataLine - brReader.readLine() * "Wn"; 

dataBuilder.append (dataLine); 
} 
System.out 

.println("Data received and now writing it to Socket"); 

out.println (dataBuilder) ; 
out. flush (); 
// Sleep for 6 Seconds before reading again 
Thread. sleep (6000) ; 


} catch (Exception e) { 
e.printStackTrace (); 


} 
li 


至 此 ，Crime 生产 者 大 功 告 成 。 继 续 开发 Stream 消费 者 和 转换 器 ， 然 后 将 部 署 和 执行 
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所 有 组 件 并 在 Spark 驱动 控制 台 上 分 析 结 果 。 
9.3.3 编写 Stream 消费 者 和 转换 器 





执行 以 下 步骤 使 用 Scala 编写 Stream 消费 者 和 转换 器 代码 : 
COD 打开 并 编辑 Spark-Examples 项 目 ， 添 加 一 个 新 的 Scala 对 象 一 一 chapter.nine. 
SQLStreamingCrimeAnalyzer. scala. 
(2) 编辑 SQLStreamingCrimeAnalyzer scala 并 添加 以 下 代码 : 


package chapter.nine 

import org.apache.spark. 

import org.apache.spark.streaming. 

import org.apache.spark.sql. 

import org.apache.spark.storage.StorageLevel. 
import org.apache.spark.rdd. 

import org.apache.spark.streaming.dstream. 


object SQLStreamingCrimeAnalyzer ( 


def main(args: Array[String]) { 
val conf = new SparkConf() 
conf.setAppName("Our SQL Streaming Crime Analyzer in Scala") 
val streamCtx = new StreamingContext (conf, Seconds (6) ) 
val lines - streamCtx.socketTextStream("localhost", args(0).toInt, 
MEMORY AND DISK SER 2) 


lines.foreachRDD ( 

=> 

//Splitting, flattening and finally filtering to exclude any Empty Rows 
val rawCrimeRDD = x.map( .split("\n"))-.flatMap ( x => x }.filter { x 
=> x.length()>2 } 
println("Data Received = "«rawCrimeRDD.collect ().length) 
//Splitting again for each Distinct value in the Row 
val splitCrimeRDD = rawCrimeRDD.map ( x => x.split(",") } 
//Finally mapping/ creating/ populating the Crime Object with the 
values 
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val crimeRDD = splitCrimeRDD.map (c => Crime (c (0), c(1),c(2),c(3),c(4),c(5), 
c(6))) 
//Getting instance of SQLContext and also importing implicits for 
dynamically creating Data Frames 
val sqlCtx = getInstance(streamCtx.sparkContext) 
import sqlCtx.implicits. 
//Converting RDD to DataFrame 
val dataFrame = crimeRDD.toDF() 
//Perform few operations on DataFrames 
println ("Number of Rows in Table = "«dataFrame.count()) 
printin("Printing All Rows") 
dataFrame.show (dataFrame.count () .toInt) 
//Now Printing Crimes Grouped by "Primary Type" 
println("Printing Crimes, Grouped by Primary Type") 
dataFrame.groupBy ("primaryType") .count () . sort ($"count". 
desc) .show (5) 
//Now registering it as Table and Invoking few SQL Operations 
val tableName ="ChicagoCrimeData"+System.nanoTime () 
dataFrame.registerTempTable (tableName) 
invokeSQLOperation (streamCtx.sparkContext, tableName) 
} 
streamCtx.start(); 
StreamCtx.awaitTermination(); 


def invokeSQLOperation (sparkCtx:SparkContext, tableName:String) { 
println("Now executing SQL Queries. ....") 
val sqlCtx = getInstance (sparkCtx) 
println("Printing the Schema...") 
SqlCtx.sql("describe "+tableName) .collect().foreach ( println } 
println("Printing Total Number of records. ....") 
SglCtx.sql("select count(1) from "«tableName).collect(). foreach 
( println } 
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//Defining Singleton SQLContext variable 
@transient private var instance: SQLContext = null 
//Lazy initialization of SQL Context 
def getInstance(sparkContext: SparkContext): SQLContext = 
synchronized { 
if (instance == null) { 
instance = new SQLContext (sparkContext) 


) 
instance 


// Define the schema using a case class. 
case class Crime (id: String, caseNumber:String, date:String, 
block:String, IUCR:String, primaryType:String, desc:String) 
JEJE, Stream 消费 者 和 转换 器 已 大 功 告 成 。 继 续 前 进 ， 执 行 生 产 者 、 消 费 者 和 转换 
器 并 分 析 结 果 。 


9.3.4 执行 SQL Streaming Crime 分 析 器 


执行 以 下 步骤 来 执行 SQL Streaming Crime 分 析 器 : 
(1) 假设 Spark 集群 已 启动 并 正在 运行 ， 请 将 Eclipse 项 目 导出 为 spark-examples.jar。 
(2) 第 一 个 任务 是 启动 Crime 生产 者 ， 为 此 打开 一 个 新 的 Linux 控制 台 ， 并 在 导出 
spark-examples.jar 的 同一 个 位 置 执行 以 下 命令 : 


java -classpath spark-examples.jar chapter.nine.CrimeProducer 9047 


CrimeProducer 后 的 参数 是 端口 号 (在 本 例 中 为 9047)， 生 产 者 将 在 此 端口 上 打开 一 
个 新 的 TCP 套 接 字 ， 用 于 侦 听 要 接收 数据 的 客户 端 。 一 旦 执行 命令 ， 在 它 开始 读 取 和 提 
交 Crime 数据 之 前 ， 生 产 者 将 等 待 传 入 的 连接 。 
(3) 打开 一 个 新 的 Linux 控制 台 ， 并 在 导出 spark-examples.jar 的 同一 位 置 执行 以 下 
命令 : 
$SPARK_HOME/bin/spark-submit --class chapter.nine. 
SQLStreamingCrimeAnalyzer --master spark: //ip-10-234-208-221: 7077 














spark-examples.jar 9047 
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仍 在 spark-submit 命令 的 最 后 一 个 参数 中 提供 了 端口 号 。 此 端口 号 应 与 执行 
CrimeProducer 时 所 提供 的 端口 号 相同 〈 在 本 例 中 为 9047)。 此 处 的 作业 将 连接 到 所 提供 
的 端口 ， 并 开始 接收 生产 者 提供 的 数据 。 

至 此 ， 大 功 告 成 了 ! 是 不 是 很 棒 ? 
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图 9.5 

图 9.5 的 屏幕 截图 显示 了 在 控制 台 上 产生 的 输出 。 它 显示 Crime 生产 者 读 取 和 提交 的 
记录 数 。 

图 9.6 的 屏幕 截图 显示 了 Spark 驱动 控制 台 上 的 消费 者 和 转换 器 所 产生 的 输出 它 显示 
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图 9.6 
在 本 节 中 讨论 了 Spark Streaming 和 Spark SQL 这 两 种 不 同 Spark 扩展 的 集成 ， 还 开 
发 并 执行 了 近 实 时 接收 数据 的 Spark Streaming 作业 ， 然 后 进一步 利用 Spark SQL 对 流 数 
据 执 行 分 析 。 
继续 前 进 看 看 Spark Streaming 部 署 和 监控 方面 的 情况 。 
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94 ”部署 和 监测 


在 本 节 中 将 讨论 部 署 和 监测 Spark Streaming 应 用 程序 的 各 种 方法 。 部 署 和 监测 是 一 个 
大 的 话题 ， 当 讨论 分 布 式 部 署 和 监测 时 它 变 得 尤为 复杂 。 讨 论 Spark 部 署 的 所 有 方面 已 超 
出 了 本 书 的 范围 ， 不 过 将 涉及 部 署 和 监测 的 各 个 方面 ， 这 会 有 助 于 熟悉 Spark 和 Spark 
Streaming 提供 的 各 种 功能 及 灵活 性 。 


9.4.1 用 于 Spark Streaming 的 集群 管理 器 





Spark 是 一 个 不 强制 要 求 任何 应 用 服务 器 或 部 署 堆栈 的 框架 ， 提 供 了 对 单机 、Yarm 
BK Mesos 等 分 布 式 集群 管理 器 的 支持 ， 可 以 在 这 些 不 同 的 集群 管理 器 上 集成 和 部 署 基 于 
Spark 和 Spark 的 应 用 程序 。 在 第 6 章 “ 熟 悉 Spark” 中 “配置 Spark 集群 ”部 分 已 看 到 过 
单机 上 的 部 署 。 继 续 前 进 ， 在 Yarn 和 Apache Mesos 上 部 署 流 应 用 程序 。 

1. 在 Yarn 上 执行 Spark Streaming 应 用 

Yarm 或 Hadoop 2.0 是 一 个 通用 目的 集群 计算 框架 ， 负 责 分配 和 管理 执行 各 种 应 用 程 
序 所 需 的 资源 , 引入 了 三 个 新 的 守护 进程 服务 : ResourceManager (RM), NodeManager (NM) 
和 ApplicationMaster (AM)。 这 些 新 服务 共同 负责 管理 集群 资源 、 独 立 节 点 和 应 用 程序 。 

g AA Yam 架构 的 更 多 信息 ， 请 参阅 http://hadoop.apache.org/docs/current/ 
hadoop-yarn/hadoop-yarn-site/YARN.html. 


执行 以 下 步骤 在 Yarn 上 部 署 Spark Streaming 应 用 程序 : 
a) 第 一 步 是 设置 和 配置 Yam. Yarn 可 以 设置 为 如 下 两 种 不 同 的 模式 。 
O 单 节点 设置 : 按照 http://tinyurl.com/zpz45vw 提供 的 步骤 /说 明 在 单个 节点 上 配置 
所 有 Yarn 服务 。 
O 集群 设置 ,按照 http://tinyurl.com/zejnjth 提供 的 步骤 /说 明 设 置 集群 模式 中 的 
Yarn. 
(2) —H Yam 设置 启动 并 运行 于 任 一 给 定 的 模式 ， 即 可 通过 在 Linux 控制 台 上 执行 
以 下 命令 来 提交 或 执行 任何 Spark Streaming 应 用 程序 : 
$SPARK_HOME/bin/spark-submit --class chapter.nine. 
SQLStreamingCrimeAnalyzer --master yarn-client spark-examples.jar 9047 
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也 可 以 使 用 这 样 的 命令 : 

$SPARK HOME/bin/spark-submit --class chapter.nine. 

SQLStreamingCrimeAnalyzer --master yarn-cluster spark-examples.jar 9047 

至 此 ， 完 成 了 Spark Streaming 应 用 的 执行 。 

上 面 两 个 命令 间 的 唯一 区 别 是 ， 前 者 利用 yarn-client 使 Spark 驱动 程序 能 够 在 执行 了 
spark-submit 命令 的 同一 台 机 器 上 执行 ， 而 后 者 则 利用 了 yam-cluster 在 Yam 集群 中 执行 
spark 驱动 程序 ， 如 此 保障 了 Spark 驱动 程序 的 HA、 故 障 转移 和 可 靠 性 。 有 关 在 Yam 上 前 
署 Spark Streaming 应 用 程序 的 更 多 信息 ,请 参阅 https://spark.apache.org/ docs/1.5.1/running- 
on-yarn.html。 


Qo "MKHADOOP CONF DIR 变量 已 作为 环境 变量 配置 ,并 且 指向 包含 Hadoop 
配置 文件 的 目录 ， 通 常 位 于 HADOOP HOME/etc/hadoop。 











2. 在 Apache Mesos 上 执行 Spark Streaming 应 用 


Apache Mesos (http://mesos.apache.org/) 是 一 个 集群 管理 器 ， 可 以 为 各 种 分 布 式 应 用 
程序 或 框架 提供 有 效 的 资源 隔离 和 共享 。 它 可 以 在 动态 共享 池 的 节点 中 运行 Hadoop, MPI, 
Hypertable, Spark 等 框架 。Spark 和 Mesos 彼此 相关 ， 不 过 它们 并 不 相同 。 其 渊源 要 追溯 
到 2009 年 ， 当 时 在 伯克利 实验 室 已 经 有 了 关于 在 Mesos 之 上 开发 框架 的 讨论 和 想法 ， 于 
是 促成 了 Spark 的 诞生 。 当 时 意图 展示 在 Mesos 上 开发 和 部 署 的 易 用 性 ， 与 此 同时 还 有 支 
持 如 机 器 学 习 及 提供 即席 查询 等 交互 式 和 迭代 计算 的 目的 。 

通过 抽象 出 CPU 或 内 存 这 样 的 物理 和 虚拟 资源 并 维护 节点 池 ，Mesos 提供 了 计算 资源 
的 容错 和 弹性 分 布 。 如 今 更 进一步 ， 可 根据 应 用 的 每 次 需求 /请 求 来 分 配 适 当 的 资源 。 继 续 
前 进 ， 在 Apache Mesos 上 部 署 Spark Streaming 应 用 程序 。 

执行 以 下 步骤 在 Apache Mesos 上 部 署 Spark Streaming 应 用 程序 : 

(1) 按照 http://mesos.apache.org/documentation/latest/getting-started/ 提 供 的 说 明 设置 和 
配置 Apache Mesos。 

(2) 一 旦 集群 启动 并 运行 ， 可 以 从 http://<hostnname>:5050 浏览 Mesos UI， 配 置 一 些 
环境 变量 。 在 Linux 控制 台 上 执行 以 下 命令 : 

export MESOS HOME =<Path of mesos installation dir > 

export MESOS NATIVE JAVA LIBRARY-«Path of ibmesos.so > 


ANS 默认 情况 下 ，libmesos.so 可 以 在 usr/local/lib/libmesos.so 找到 ， 如 果 在 默认 
位 置 找 不 到 ， 可 以 在 <MESOS HOME-/build/src/ libs/libmesos.so 找到 它 。 
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(3) 配置 一 个 新 的 环境 变量 sparkexecutoruri。 此 变量 的 值 将 是 通过 http://、hdfs:// 
(Hadoop) 或 S3:/ Chttp://aws.amazon.com/s3/_-f'] Amazon S3) 来 访问 Spark 二 进 制 文件 
的 位 置 。 该 变量 是 Mesos 所 必需 的 ， 支 持 从 节点 获取 执行 Spark 作业 所 要 求 的 Spark 二 进 
制 文件 。 为 简单 起 见 ， 可 以 使 用 http:// 再 配 上 Spark 网 站 的 URL。 编 辑 <SPARK HOME>/ 
conf/spark-defaults.conf 文件 并 添加 以 下 变量 : 





spark.executor.uri- http://d3kbcqa49mib13.cloudfront.net/spark- 
1.5.1-bin-hadoop2.4.tgz 


Qo 在 实际 应 用 系统 中 ， 建议 在 HDFS 中 上 传 Spark 二 进 制 文件 ， 该 文件 应 该 在 
与 Mesos 从 节点 相同 的 网 络 / 子 网 中 。 
至 此 , 完成 了 Spark Streaming 应 用 的 执行 。 现 在 Mesos 集群 被 配置 为 执行 Spark 作业 。 
可 以 打开 一 个 新 的 Linux 控制 台 并 执行 以 下 命令 将 Spark Streaming 作业 提交 到 Mesos 集群 ; 
$SPARK HOME/bin/spark-submit --class chapter.nine. 
SQLStreamingCrimeAnalyzer --master mesos:// «master-host»:5050 
spark-examples.jar 9047 
一 旦 执行 了 前 面 的 命令 ， 将 在 控制 台 上 看 到 日 志 输出 ， 同 时 Mesos 3: UI 也 将 显示 作 
业 的 工作 状态 。 
有 关 在 Mesos 上 部 署 Spark Streaming 应 用 程序 的 更 多 信息 ， 请 参阅 
https://spark.apache.org/docs/1.5.1/running-on-mesos.html. 
本 节 中 讨论 了 在 各 种 集群 计算 框架 (如 Yam 和 Apache Mesos) 中 部 署 Spark Streaming 
应 用 程序 所 涉及 的 步骤 。 下 一 节 将 讨论 Spark Streaming 应 用 程序 的 监测 。 


9.4.2 监测 Spark Streaming 应 用 程序 

















监测 分 布 式 和 流 式 应 用 是 一 项 复杂 的 任务 。 讨 论 监测 的 所 有 方面 超出 了 本 书 范围 ， 
不 过 应 该 了 解 可 用 于 监测 Spark 和 Spark Streaming 应 用 程序 的 各 种 方法 。 

没有 一 个 单一 框架 可 以 满足 企业 系统 的 所 有 监测 要 求 ， 这 就 是 企业 部 署 多 个 监测 系 
统 的 原因 ， 即 以 便于 应 用 每 个 可 用 和 已 部 署 监 测 工具 的 最 佳 特性 。 

Spark 揭示 了 工作 运行 或 完成 时 的 各 类 指标 ， 可 以 非常 好 地 将 它们 捕获 和 公开 给 用 
户 。Spark 采用 了 Coda Hale 度量 库 Chttps://github.com/dropwizard/metrics) 并 提供 了 一 个 
灵活 、 可 扩展 和 可 配置 的 度量 系统 。 该 库 还 有 助 于 与 Nagios、Graphite、Ganglia、JMX 
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等 其 他 监测 工具 集成 。Spark 还 公开 了 用 于 监视 各 种 运行 和 已 完成 作业 的 REST API. 
正在 运行 应 用 程序 和 已 完成 应 用 程序 的 JSON 数据 均 可 通过 网 址 访问 ， 其 中 从 
http://<server-url>:18080/api/v1 访问 已 完成 的 作业 、 从 http://<server-url>:4040/api/v1 访问 
正在 运行 应 用 程序 。 
gt 请 参阅 http://spark.apache.org/docs/1.5.1/monitoring.html 以 获得 有 关 监 测 
Spark 和 Spark Streaming 应 用 程序 的 更 多 信息 


在 本 节 中 ， 讨 论 了 部 署 和 监测 Spark Streaming 应 用 程序 的 各 个 方面 
Spark 是 一 个 广泛 的 话题 ， 这 里 仅 是 略 罕 门 径 。 如 果 对 Spark Streaming Y 深 感 兴趣 ， 正 
在 将 其 用 于 工作 或 计划 将 其 用 于 工作 ， 那 么 建议 继续 学 习 Spark Streaming 的 本 质 和 内 在 
细节 。 有 关内 容 包含 在 Packt Publishing 出 版 ，Sumit Gupta 所 著 的 Learning Real-time 
Processing with Spark Streaming (《 学 习 用 Spark Streaming 进行 实时 处 理 》) 一 书 中 
( https://www.packtpub.com/big-data-and-business-intelligence/learning-real-time-processing-spark- 
streaming). 












































95 X € # 


在 本 章 中 ， 讨 论 了 Spark Streaming 的 各 个 方面 。 讨 论 了 Spark Streaming 的 架构 、 组 
件 和 封装 结构 , 还 编码 和 执行 了 第 一 个 Spark Streaming 应 用 程序 , 也 使 用 Spark Streaming 
和 Spark SQL 对 芝加哥 犯罪 数据 进行 了 实时 分 析 。 

在 下 一 章 中 将 讨论 Lambda 架构 ， 它 为 批 处 理 和 实时 处 理 提供 了 一 个 统一 的 框架 。 
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为 满足 批 处 理 和 实时 数据 处 理 需 求 ， 多 数 企业 已 在 统一 系统 方面 走 过 了 漫漫 长 路 。 
展开 来 说 ， 就 是 需要 一 个 分 布 式 、 可 扩展 、 高 可 用 性 和 容错 的 大 数据 企业 系统 ， 它 不 但 
是 实时 数据 系统 ， 而 且 能 够 从 批 处 理 中 提供 统一 的 观点 /见解 。 虽 然 架 构 师 /开发 人 员 已 经 
开发 了 分 立 式 系统 ， 即 批 处 理 和 实时 用 例 是 分 别 开 发 和 各 自 部 署 的 ， 可 是 将 它们 以 统一 
观点 呈现 给 用 户 是 一 项 真正 的 挑战 。 对 于 统一 观点 目标 本 身 的 认识 就 是 一 种 挑战 。 在 一 
些 已 使 用 传统 架构 模式 的 场合 实现 时 ， 整 个 系统 会 变 得 太 过 复杂 ， 在 某 些 情况 下 甚至 使 
整个 系统 几乎 无 法 管理 。 

直面 挑战 ， 为 满足 企业 要 为 批量 和 实时 数据 组 提供 统一 观点 的 需求 ，Nathan Marz 在 
2012 年 末 引 入 了 一 种 新 的 架构 范例 ， 称 为 Lambda 架构 (http://lambda-architecture.net/)。 

在 本 章 中 ,将 讨论 Lambda 架构 及 其 各 个 组 件 ， 还 将 讨论 它 的 各 项 功能 和 Lambda 架 
构 有 关 的 技术 。 

本 章 将 讨论 以 下 主题 : 

口 什么 是 Lambda 架构 

O Lambda 架构 的 技术 和 矩阵 

口 Lambda 架构 的 实现 














10.1 什么 是 Lambda 架构 


在 本 节 中 将 讨论 Lambda 架构 的 各 种 功能 和 组 件 。 先 来 看 看 Lambda 架构 的 需求 ， 然 
后 将 深入 其 他 方面 。 





10.1.1 Lambda 架构 的 需求 


Lambda 背后 的 驱动 力 是 由 MapReduce 范式 引入 的 延迟 。Hadoop 或 MapReduce 达到 
了 分 布 式 和 可 扩展 批 处 理 系统 的 实现 意图 ， 不 过 事实 上 所 创建 的 批 处 理 视图 创建 自 陈旧 
和 过 时 的 数据 (至 少 3 小 时 )。 虽 然 在 一 些 情 况 下 可 以 接收 数据 每 天 到 达 一 次 或 两 次 ， 但 
此 种 数据 到 达 频 次 对 实时 更 新 的 用 例 来 说 是 不 可 接受 的 ， 因 为 可 能 会 导致 整体 计算 显著 
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差异 的 产生 。 

下 一 个 显而易见 的 问题 是 : 为 什么 不 能 在 系统 运行 过 程 中 飞速 计算 和 重新 计算 一 切 
数据 ? 

只 有 当 系 统 拥 有 无 限 的 CPU、 内 存 和 网 络 速度 时 才能 做 到 这 一 点 ， 现 实情 况 中 显然 
无 法 满足 如 此 条 件 。 因 此 ， 需 要 权衡 处 理 ， 并 选择 实时 处 理 相对 批 处 理 间 所 需 的 恰当 数 
据 量 。 

Lambda 架构 引入 了 一 个 新 的 架构 范式 来 解决 此 类 需求 , 使 最 终 用 户 能 够 查看 数据 的 
分 析 或 计算 ， 可 查看 历史 数据 和 作为 单个 视图 或 实体 近 实 时 到 达 的 数据 。 Lambda 架构 是 
基于 统一 架构 原理 开发 的 ， 可 以 解决 批 处 理 和 近 实 时 数据 处 理 的 需求 。 

Lambda 架构 利用 批 处 理 层 提供 准确 和 全 面 的 视图 ， 同 时 保持 如 延迟 、 吞 吐 量 和 容错 
各 种 非 功能 需求 之 间 的 平衡 ， 并 且 利用 实时 或 流 功能 来 消耗 近 实 时 更 新 ， 最 终 组 合 或 连 
接 批 处 理 和 实时 视图 ， 为 最 终 用 户 提供 单一 视图 。 

Lambda 架构 更 接近 于 一 个 规范 , 提供 了 一 个 通用 方法 来 实现 任意 数据 集 上 的 任意 函 
数 ， 最 终 以 低 延 迟 返 回 其 结果 。 要 注意 的 重点 在 于 ， 由 于 Lambda 架构 是 一 个 规范 ， 所 以 
没有 指派 任何 特定 技术 以 实现 批 处 理 或 实时 视图 。Lambda 架构 定义 了 架构 范式 和 一 致 性 
方法 来 选择 技术 ， 将 它们 连接 在 一 起 以 满足 用 户 的 要 求 。 

后 面 将 很 快 讨论 Lambda 架构 的 架构 / 层 /组 件 ， 但 在 此 之 前 先 快速 讨论 Lambda 架构 
的 各 种 功能 。 

O 可 扩展 性 : 可 扩展 性 是 Lambda 架构 的 主要 需求 /委托 之 一 ， 意 味 着 为 日 益 增 长 

的 系统 用 户 服务 ， 同 时 不 用 对 底层 架构 或 代码 进行 任何 修改 。 可 以 通过 向 现 有 
机 器 中 添加 如 CPU、 内 存 、 磁 盘 等 更 多 资源 来 实现 ， 这 种 方式 通常 被 称 为 垂直 
可 扩展 性 (向 上 扩展 ) 。 也 可 以 通过 向 现 有 集群 添加 更 多 数量 的 机 器 来 实现 ， 
这 种 方式 通常 被 称 为 水 平 可 扩展 性 (横向 扩展 ) 。Lambda 架构 应 支持 垂直 和 水 
平 可 扩展 性 ,但 后 者 一 直 应 是 首选 。Lambda 架构 中 的 每 一 个 层次 ,无 论 是 实时 
还 是 批 处 理 层 ， 都 应 该 能 够 不 停止 或 暂停 现 有 集群 ， 仅 通过 向 集群 添加 更 多 节 
点 来 处 理 额 外 数据 量 的 数据 。 


Qe 有 关 可 扩展 性 的 更 多 信息 ， 请 参阅 https:/en.wikipedia.org/wiki/Scalability. 


O ”故障 适应 性 : 容错 或 对 系统 故障 的 恢复 是 Lambda 架构 的 另 一 个 内 在 特性 。 虽 然 
系统 的 状态 和 行为 取决 于 故障 的 类 型 ， 但 是 系统 必须 妥善 处 理 故 障 ， 并 以 缩减 
或 降低 的 质量 来 继续 提供 其 功能 所 能 达到 的 最 佳 响应 。 容 错 设计 或 架构 确保 在 
某 些 系统 组 件 发 生 故 障 的 情况 下 ， 整 个 系统 不 会 关闭 。 此 时 整个 系统 仍然 可 以 
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响应 ， 不 过 有 少数 受 影响 的 组 件 出 现 容量 降低 或 质量 降低 的 情况 。 例 如 在 20~ 
30 个 节点 的 集群 中 ， 有 4 一 5 个 节点 出 于 某 种 原因 (例如 硬件 故障 〉 故障 的 情况 
下 ， 不 应 该 导致 整个 集群 宕 机 。 因 为 是 在 降低 的 容量 下 工作 ， 系 统 响应 可 能 较 
慢 ， 也 可 能 影响 整体 SLA， 但 是 系统 仍然 是 可 以 响应 的 。 容 错 是 要 求 高 可 用 性 
的 系统 中 一 个 备 受 追捧 的 特征 ， 这 进一步 要 求 在 整个 系统 设计 里 要 包括 或 开发 
诸如 元 余 和 复制 的 功能 ， 使 得 系统 不 会 有 任何 单 点 故障 (SPOF) 。 


有 关 容 错 的 更 多 信息 ， 请 参阅 htps//enwikipedia.org/wiki/Fault tolerance. 


低 延 迟 : 延迟 是 任何 系统 消耗 、 处 理 新 事件 并 最 终 产生 结果 所 需要 的 时 间 。 虽 
然 随 着 系统 间 和 用 例 间 的 差异 而 各 有 不 同 ， 但 是 延迟 的 任何 变化 〈 增 加 或 减少 ) 
都 会 影响 到 速度 层 ， 因 为 这 里 负责 实时 消耗 和 处 理事 件 。 几 毫秒 或 几 秒 的 延迟 
都 可 能 是 无 法 接受 的 ， 需 要 被 认真 对 待 。Lambda 架构 的 目标 是 提供 低 延 迟 、 近 
实时 的 层 ， 其 可 以 在 几 毫 秒 内 消耗 和 处 理 输入 。 

可 扩展 性 : 软件 系统 需要 有 足够 的 灵活 性 ， 既 能 纳入 新 出 的 或 修改 的 需求 ， 又 不 
需要 重 构 或 更 改 整个 软件 系统 。Lambda 架构 已 经 在 批 处 理 和 实时 层 隔 离开 的 类 
似 原理 上 被 开发 , 使 得 每 一 层 中 的 任何 增强 都 不 会 影响 到 整个 系统 或 降低 其 效率 。 


有 关 可 扩展 性 的 更 多 信息 ， 请 参阅 https://en.wikipedia.org/wiki/Extensibility。 


维护 : 维护 软件 系统 所 需 的 成 本 和 工作 量 是 另 一 个 重点 关注 方面 。 架 构 师 /开发 
人 员 总 是 喜欢 开发 和 部 署 一 个 不 太 复杂 、 易 于 维护 的 软件 系统 。Lambda 架构 正 
擅长 于 此 ， 它 将 批 处 理 和 实时 处 理 的 复杂 性 分 开 为 各 自 单独 的 层 ， 这 不 仅 有 助 
于 在 任 一 层 〈 批 处 理 或 实时 ) 中 增添 新 的 需求 ， 与 此 同时 也 保障 一 层 中 的 变化 
对 另 一 层 影响 最 小 化 或 没有 影响 。 

继续 前 进 ， 讨 论 Lambda 架构 的 架构 /组 件 / 层 。 


Lambda 架构 的 层 / 组 件 


























在 本 节 中 ， 将 讨论 Lambda 架构 的 各 个 层 /组 件 。 
Lambda 架构 的 规范 定义 了 一 系列 互相 连接 或 松散 耦合 的 层 /组 件 , 其 中 每 层 被 赋予 具 


Ait sc 





E. Lambda 架构 专注 于 处 理 各 种 大 数据 问题 声明 ， 这 可 能 涉及 数据 量 、 速 度 和 多 


样 性 三 个 维度 Chttps://en.wikipedia.org/wiki/Big_data#Definition ) o 
在 高 级 层次 , Lambda 规范 定义 了 主要 的 层 / 组 件 以 及 每 个 组 件 之 间 的 集成 , 如 图 10.1 


所 示 。 
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图 10.1 


图 10.1 定义 了 Lambda 架构 里 特定 的 高 级 架构 / 层 / 组 件 。 

下 面 继续 讨论 Lambda 架构 定义 的 每 个 组 件 角色 和 职责 。 

Q 数据 源 (Data Source) : 这 里 指 的 是 外 部 数据 源 ， 委 托 其 在 数据 到 达 时 传递 数 
据 。 数 据 源 可 以 依照 各 类 模型 来 传递 数据 ， 可 以 利用 MQ. Web 服务 、 目 录 / 文 
件 〈 以 定期 的 时 间 间 隔 轮 询 新 数据 ) 、 直 接 数 据 库 ， 甚 至 于 原始 基于 套 接 字 等 
模型 作为 数据 传递 机 制 。 在 大 多 数 情况 下 ， 数 据 传递 机 制 不 在 控制 范围 内 ， 因 
为 它们 由 传递 并 提供 数据 访问 的 供应 方 来 定义 。 所 以 ， 在 这 一 层 上 可 实现 的 功 
能 有 限 ， 不 过 可 以 开发 数据 消费 层 来 隐藏 自 不 同 来 源 访问 数据 的 复杂 性 和 只 消 
耗 特定 格式 的 数据 。 

Q 数据 消费 层 (Data Consumption Layer) : 这 一 层 负责 封装 从 不 同 数据 源 获 取 数 
据 的 复杂 性 ， 然 后 将 其 转换 为 可 由 批 处 理 或 实时 层 进一步 使 用 的 标准 格式 。 一 
旦 将 数据 转换 为 标准 消费 格式 ， 就 可 以 将 其 推送 到 批 处 理 和 实时 数据 层 进行 进 
一 步 处 理 。 

口 ” 批 处 理 层 (Batch Layer) : 这 是 Lambda 架构 最 重要 的 组 件 之 一 。 批 处 理 层 从 数 
据 消 费 层 接收 /获取 数据 ， 并 进一步 将 其 持久 化 到 用 户 定义 的 数据 结构 中 ， 数 据 
结构 非 可 变 ， 同 时 数据 在 不 断 丰 富 中 。 简 而 言 之 ， 批 处 理 层 维护 着 主 数据 ， 其 
结构 从 不 改变 ， 同 时 只 允许 追加 方式 增长 。 诸 如 Hadoop/HDFS 之 类 的 系统 是 创 
建 主 数据 的 典型 示例 ， 其 结构 非 可 变 ， 即 从 不 改变 。 批 处 理 层 还 负责 创建 和 维 
护 批 处 理 视图 。 批 处 理 视图 是 这 样 一 类 数据 结构 /视图 ， 其 可 由 在 主 数据 上 以 规 
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性 的 间隔 计算 或 刷新 而 得 到 。 批 处 理 视图 可 以 被 看 作 聚 合 视 图 或 变换 视图 ， 

其 可 以 被 服务 层 直接 消耗 。 举 例 来 说 ， 要 处 理 网 络 日 志 并 计算 不 同 网 址 的 数量 。 
在 此 情况 下 仅 通过 追加 主 数 据 来 收录 所 有 用 户 命 中 的 原始 记录 。 接 下 来 ， 将 有 
一 个 在 主 数据 上 执行 的 MapReduce 作业 或 Hive 查询 , 它 查 找 每 类 不 同 网 址 的 计 
数 , 最 后 将 结果 保存 到 另 一 个 Hive X, HDFS 或 一 些 NoSQL F. HE MapReduce 
作业 或 Hive 查询 按 固定 间隔 执行 并 刷新 聚合 视图 。 这 些 聚 合 视图 称 为 批 处 理 
视图 。 

图 102 结合 示例 说 明了 批 处 理 层 的 高 级 设计 构思 ， 其 中 捕获 网 络 日 志 数 据 并 且 聚 合 
网 址 以 找到 每 个 网 页 的 流行 程度 。 
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图 10.2 


口 实时 层 (Real Time Layer) : 这 是 Lambda 架构 中 的 另 一 个 重要 的 关键 层 。 批 处 

理 层 大 部 分 情况 下 能 满足 需求 , 可 是 它们 在 特定 时 段 内 会 提供 过 时 数据 服务 ( 直 
到 系统 刷新 批 处 理 视图 ) 。 由 批 处 理 视图 引入 的 延迟 量 有 可 能 是 无 法 接受 的 ， 
因为 用 例 可 能 需要 实时 或 近 实 时 可 用 的 数据 。 或 许可 以 减少 批 处 理 视 图 的 刷新 
间隔 ， 但 这 样 做 可 能 会 使 问题 恶化 。 待 处 理 的 数据 量 以 TB/PB 为 单位 ， 无 论 提 
供 多少 硬 件 用 于 计算 ， 都 肯定 需要 几 个 小 时 。 实 时 层 (也 可 称 为 速度 层 ) 解决 
了 这 一 问题 ， 即 只 存储 可 立即 向 用 户 提供 的 一 组 数据 或 数据 子 集 。 这 样 一 来 ， 
它 可 以 捕获 的 数据 量 取决 于 提供 给 本 层 的 硬件 〈 尤 其 是 内 存 ) 和 批 处 理 视 图 的 
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刷新 闻 隔 。 其 工作 方式 是 ， 实 时 层 将 消耗 和 持久 化 增 量 数据 集 ， 这 些 行为 只 在 
批 处 理 视图 呈现 陈旧 数据 的 时 间 间 隔 内 发 生 。 一 旦 批 处 理 视图 被 刷新 ， 实 时 层 
将 删除 旧 数 据 并 重新 开始 处 理 。 扩 展 一 下 网 络 日 志 示例 ， 并 假设 批 处 理 视图 每 
15 分 钟 重 新 生成 一 次 。 如 此 一 来 ， 实 时 层 将 仅 存储 和 处 理 最 近 15 分 钟 的 数据 。 
实质 上 实时 层 将 处 理 最 近 15 分 钟 的 数据 并 生成 实时 视图 ， 实时 视图 在 几 毫 秒 内 
或 在 接收 数据 同时 被 刷新 。 实 时 层 通 常 使 用 如 Storm 或 Spark 这 样 的 全 内 存 系统 
来 设计 和 开发 。 
图 10.3 结合 示例 说 明了 针对 实时 层 的 高 级 设计 ， 其 中 捕获 网 络 日 志 数 据 并 且 聚 合 网 
址 以 找到 每 个 网 页 的 流行 程度 。 在 系统 /集群 内 存 中 捕获 数据 ， 并 且 立 即 生成 视图 ， 所 生 
成 的 视图 仅 针对 最 近 15 分 钟 内 接收 的 数据 。 


‘Storm consumes the data as it 
arrives and generates the realtime 
views instantly only for the last 
15 minutes of data. 
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图 10.3 


O IRE (Serving Layer) : 这 是 完整 Lambda 架构 中 的 最 后 一 层 。 服 务 层 的 职责 
是 获取 和 组 合 来 自 批 处 理 和 实时 层 的 数据 ， 并 且 向 用 户 提供 组 合 视图 。 扩展 一 
下 前 面 的 示例 ， 服 务 层 将 组 合 来 自 批 处 理 和 实时 层 的 网 络 日 志 的 聚合 视图 ， 将 
它们 持久 化 到 分 布 式 数据 库 中 以 用 于 进一步 查询 ， 并 且 将 它们 以 单个 视图 呈现 
给 用 户 。 

图 10.4 结合 示例 里 聚合 视图 被 提取 、 合 并 及 最 终 呈 现 给 用 户 的 过 程 说 明了 服务 层 的 
高 级 设计 。 最 终 或 合并 后 的 视图 可 以 存储 在 如 HBase 这 样 一 些 分 布 式 数据 库 或 NoSQL 
中 ， 其 能 够 提供 近 实 时 响应 ， 或 者 可 以 直接 快速 合并 批 处 理 和 实时 处 理 视图 并 呈现 给 用 
户 。 在 选择 持久 化 保存 的 情况 下 ， 服 务 层 中 以 规律 性 的 间隔 刷新 数据 ， 也 可 以 使 用 某 种 
通知 机 制 来 通知 服务 层 。 
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图 10.4 


Lambda 架构 的 真正 好 处 在 于 其 能 够 呈现 与 历史 数据 合并 的 实时 数据 ,并 且 将 结果 以 
单一 视图 呈现 给 用 户 。 现 在 ， 总 体 延迟 已 经 降低 ， 同 时 系统 的 可 用 性 也 大 为 增加 。 

在 本 节 讨 论 了 Lambda 架构 的 各 个 方面 。 前 面 已 讨论 了 该 架构 的 需求 , 同时 还 用 适当 
的 示例 讨论 了 Lambda 架构 的 各 个 层次 。 

继续 进入 下 一 节 ， 将 讨论 用 于 Lambda 架构 开发 的 各 种 技术 。 


10.2 Lambda 架构 的 技术 和 矩阵 


在 本 节 中 ， 将 讨论 可 用 于 开发 Lambda 架构 中 各 层 的 多 种 技术 选项 。 

Lambda 架构 讨论 过 四 个 不 同 的 层 , 每 一 层 都 有 各 自 的 功能 和 目的 。 下面 看 看 可 用 于 开 
发 这 些 Lambda 架构 层 的 各 种 技术 。 

数据 消费 层 是 整个 架构 中 的 第 一 层 。 按 名 字 看 来 它 似乎 是 最 简单 的 层 ， 但 现实 中 该 层 
需要 处 理 很 多 复杂 性 。 在 数据 消费 层 的 开发 或 技术 选择 中 ， 需 要 留意 如 下 挑战 。 
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O 高 可 用 性 : 这 里 应 具有 高 可 用 性 ， 并 且 应 确保 在 主 节 点 、 从 节点 或 点 对 点 架构 
中 的 工作 。 应 该 杜绝 可 以 停止 消息 消耗 的 单 点 故障 。 

OQ 容错 : 非常 重要 的 一 点 是 具有 容错 能 力 。 一 旦 消息 被 消耗 ， 它 就 不 应 在 任何 情 
况 下 丢失 。 这 里 可 以 利用 各 种 方法 来 实现 容错 ， 例 如 复制 、 持 久 化 保存 到 某 些 
数据 库 、 预 写 日 志 (WAL) 等 。 

ü 可 靠 性 : 消息 被 消耗 后 ， 系 统 必须 可 靠 传递 消息 。 例 如 ， 这 里 可 以 选择 采用 事 
务 途 径 来 保证 消息 传递 。 无 论 采用 哪 一 种 途径 ， 都 应 该 清楚 说 明 而 且 在 传递 语 
义 方面 保持 一 致 ， 所 采用 途径 可 以 是 如 下 之 一 。 
> ”最 多 一 次 : 处 理 / 传 递 消息 一 次 或 根本 不 处 理 消息 。 
> ”至 少 一 次 : 处理 /传递 消息 一 次 或 多 次 。 
> ”正好 一 次 : 仅 处 理 / 传 递 邮件 一 次 ， 既 不 少 也 不 多 于 一 次 。 

O PERE: 这 里 应 该 能 够 在 几 分 钟 甚 至 几 秒 钟 内 处 理 数 百 万 条 消息 。 它 将 以 分 布 
式 模 式 工 作 ， 并 可 扩展 以 处 理 额 外 负载 ， 同 时 不 需 对 现 有 软件 进行 任何 更 改 。 

O 可 扩展 性 和 灵活 性 ， 系统 应 足够 灵活 、 可 扩展 ， 以 便 可 添加 新 数据 源 或 修改 默 
认 功 能 以 适应 业务 需求 。 

考虑 到 上 述 各 方面 , 有 多 种 技术 可 以 应 用 于 数据 消耗 , 比如 Apache Flume(https://flume. 
apache.org ) Apache Sqoop (http://sqoop.apache.org/ ) Logstash (https://www.elastic.co/ 
products/logstash)， 或 者 像 Apache Kafka (http://kafka.apache.org/) 还 有 RabbitMQ (https:// 
www.rabbitmq.com/) 之 类 的 消息 传递 技术 。 

大 数据 的 处 理 委托 批 处 理 层 进行 。 数 据 量 庞大 无 法 由 单个 机 器 消耗 和 处 理 ， 所 以 需要 
考虑 实现 分 布 式 计算 范式 (https://en.wikipedia.org/wiki/Distributed_computing) 的 技术 框架 。 
Apache Hadoop 和 MapReduce 作为 最 受 欢 迎 的 批 处 理 框架 是 显而易见 的 选择 ， 不 过 还 有 一 
些 如 Apache Spark、Hive、Apache Pig 和 Cascading 的 其 他 选择 可 以 用 来 创建 批 处 理 层 。 请 
参阅 http://tinyurl.com/z63dpv5 以 快速 比较 所 有 可 用 的 批 处 理 技术 。 

速度 层 或 实时 层 被 委托 在 几 毫 秒 或 几 秒 间 近 实时 地 消耗 和 处 理事 件 。 速 度 层 必须 在 
数据 到 达 时 处 理 和 消耗 数据 ， 这 些 操作 都 在 系统 内 存 内 完成 而 不 是 将 数据 转 储 到 本 地 磁 
盘 。 因 此 ， 需 要 考虑 实现 分 布 式 内 存 数 据 处 理 范式 的 技术 框架 。 在 第 3 章 “ 用 Storm 处 
理 数据 ”讨论 了 Storm， 还 在 第 9 章 “ 用 Spark Streaming 分 析 流 数据 ”介绍 了 分 布 式 全 
内 存 数据 处 理 范式 Spark Streaming, 不 过 还 有 Apache Samza、Apache S4 和 Spring XD 这 
样 一 些 选择 可 用 来 创建 速度 层 。 请 参阅 http://tinyurl.com/o46tfsr 以 快速 比较 所 有 可 用 的 近 
实时 框架 技术 。 

服务 层 负责 提取 批 处 理 和 实时 视图 ， 并 合并 和 持久 化 到 分 布 式 和 高 性 能 高 效 数 据 库 
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中 , 该 数据 库 能 够 以 非常 快 的 速度 处 理 随机 读 取 和 写 入 。 有 HBase 等 各 种 NoSQL 数据 库 
可 用 于 处 理 随 机 读 取 和 写 入 。 请 参阅 http://tinyurl.com/znlblfo 以 快速 比较 可 用 于 持久 化 由 
服务 层 合并 数据 的 各 种 低 延 迟 NoSQL 数据 库 。 

图 10.5 显示 了 Lambda 架构 的 完整 生态 系统 以 及 每 个 层 可 用 的 各 种 技术 选项 。 
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图 10.5 


在 本 节 中 ， 讨 论 了 可 用 于 开发 Lambda 架构 的 每 个 层 的 各 种 技术 选项 。 下 面 继续 使 用 
芝加哥 犯罪 数据 集 实现 Lambda 架构 。 


10.3 Lambda 架构 的 实现 


在 本 节 中 将 扩展 芝加哥 犯罪 用 例 来 设计 和 编写 Spark 中 Lambda 架构 的 不 同 层 。 

扩展 芝加哥 犯罪 数据 集 ， 假 设 芝 加 哥 犯罪 数据 是 近 实 时 交付 的 。 接 下 来 ， 自 定义 消 
费 者 将 消耗 数据 ， 并 且 需 要 找 出 每 个 犯罪 类 别 的 犯罪 数量 。 虽 然 在 大 多 数 情况 下 ， 用 户 
仅 需 要 对 近 实 时 接收 的 数据 块 进行 数据 分 组 ， 然 而 在 少数 应 用 情况 下 还 需要 对 历史 数据 
进行 聚合 。 

这 样 扩展 后 已 近似 Lambda 用 例 。 

首先 分 析 整 个 架构 的 所 有 组 件 ， 然 后 将 描述 Lambda 架构 的 每 个 组 件 的 代码 和 执行 
情况 。 
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10.3.1 高 级 架构 


在 本 节 中 将 讨论 应 用 Lambda 架构 为 基础 来 开发 芝加哥 犯罪 用 例 的 高 级 架构 。 
下 面 将 利用 Spark Streaming 和 Spark 批 处 理 以 及 Cassandra 来 实现 Lambda 架构 , 用 户 
可 以 参照 10.2 节 中 定义 的 技术 矩阵 自由 使 用 其 中 的 任何 技术 。 
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RealTime Views 
a (Table - realtimedata) poe 
Custom Record producer 
= "CrimeProducer’, 
which consumes the Data Batch Views Canna 
from file and send to a (Table - batchviewdata) P. 
Socket 
Fetch and Merge 
Ll] | SM 
[=] 
User d. 
Fetches data from the batch and real-time views 
and finally present them to the user as a single view. 
图 10.6 
ket ^ 
继续 讨论 其 中 每 个 组 件 的 作用 。 
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图 10.6 显示 了 开发 芝加哥 犯罪 数据 集 用 例 所 用 Lambda 架构 的 高 级 架构 及 其 中 各 种 
组 件 。 


ü ”数据 源 和 自 定义 生产 者 : 数据 源 与 第 5 章 中 “创建 Kinesis 流 生 产 者 ”部 分 使 用 
的 芝加哥 犯罪 数据 集 相同 。 将 这 个 数据 集 放 在 文件 系统 上 的 特定 位 置 。 自 定义 

















生产 者 将 定期 从 该 文件 中 读 取 少 量 记录 ,并 将 其 发 送 到 套 接 字 以 供 进 


步 使 用 。 
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Q 实时 层 : 实时 层 为 Spark Streaming 作业 ， 监 听 由 自 定义 生产 者 打开 的 套 接 字 ， 
并 执行 两 项 功能 。 
> ”将 原始 记录 提交 /保存 到 数据 库 中 ， 此 示例 里 数据 库 为 具有 lambdaarchitecture 
键 空间 和 masterdata 表 的 Cassandra. 
> ”执行 分 组 操作 ， 只 从 所 接收 的 记录 块 中 找到 每 个 不 同 犯罪 类 型 的 计数 ， 
最 终 持久 化 到 数据 库 中 , 即 具 有 lambdaarchitecture 键 空间 和 realtimedata 表 
的 Cassandra 数据 库 。 此 表 将 包含 套 接 字 流 接收 的 每 个 批 次 的 聚合 数据 。 
口 ” 批 处 理 层 : 批 处 理 层 为 可 以 手动 执行 或 计划 执行 的 Spark 批 处 理 ， 以 每 小 时 、 每 
两 小 时 甚至 每 天 一 次 的 频率 执行 。 基 本 上 它们 执行 以 下 功能 : 
> M Cassandra 数据 库 的 masterdata 表 获 取 完 整 的 数据 ， 并 执行 分 组 操作 ， 以 
找 出 每 个 不 同 犯罪 类 型 的 计数 。 
> ”最 后 将 相同 的 数据 持久 化 到 具有 lambdaarchitecture 键 空 间 和 batchviewdata 
表 的 Cassandra 数据 库 中 。 
> ”截断 来 自 表 realtimedata 的 数据 , 假设 此 表 中 的 记录 已 在 masterdata 中 更 新 。 
O MBER: 最 后 的 服务 层 是 一 个 Spark 批 处 理 作业 ， 结 合 了 batchviewdata 和 
realtimedata 两 个 视图 ， 对 每 种 不 同 犯罪 类 型 的 数据 执行 分 组 ， 并 将 其 打印 在 控 
制 台 上 。 
现在 转 到 下 一 节 ， 将 对 每 个 组 件 进行 编码 实现 。 























10.3.2 配置 Apache Cassandra 和 Spark 


要 将 Spark 集群 与 Cassandra 集成 ， 可 执行 以 下 步骤 来 配置 Apache Cassandra: 

(OD 在 已 安装 了 Spark 二 进 制 文件 的 同一 台 机 器 上 ， 从 网 址 http://www.apache.org/ 
dyn/closer.lua/cassandra/2.1.7/apache-cassandra-2. 1.7-bin.tar.gz_F #% Apache Cassandra 2.1.7 X: 
件 包 并 将 其 解压 。 

(2) 在 Linux 控制 台 上 执行 以 下 命令 ,其 中 定义 名 为 CASSANDRA HOME 的 环境 变 
量 ， 它 指向 Cassandra 文件 包 的 解压 缩 目 录 : 


export CASSANDRA_HOME = <location of the extracted Archive> 
(3) 在 同一 控制 台 上 执行 以 下 命令 ， 使 用 默认 配置 调 出 Cassandra 数据 库 : 
$CASSANDRA_HOME/bin/Cassandra 


上 述 命令 将 调 出 Cassandra 数据 库 ， 现 已 准备 为 用 户 请 求 提供 服务 ， 不 过 就 绪 之 前 还 


第 10 章 “介绍 Lambda 架构 “231。 




















需要 创建 用 于 存储 数据 的 键 空间 和 表 。 
(4) 打开 新 的 Linux 控制 台 并 执行 以 下 命令 以 打开 Cassandra 查询 语言 (CQL) 控 
制 台 : 


$CASSANDRA HOME/bin/cqlsh 











CQLSH 是 命令 行 工 具 程序 ， 提 供 类 似 SQL 的 语法 来 对 Cassandra 数据 库 执行 CRUD 
操作 。 
(5) 在 CQLSH 上 执行 以 下 CQL 命令 ， 以 在 Cassandra 数据 库 中 创建 键 空 间 和 必 
需 的 表 : 


CREATE KEYSPACE lambdaarchitecture WITH replication = {'class': 
'SimpleStrategy', 'replication factor': 1 }; 


CREATE TABLE lambdaarchitecture.masterdata ( 
id varchar, 
casenumber varchar, 
date varchar, 
block varchar, 
iucr varchar, 
primarytype varchar, 
description varchar, 
PRIMARY KEY (id) 
); 
CREATE TABLE lambdaarchitecture.realtimedata ( 
id bigint, 
primaryType varchar, 
count int, 
PRIMARY KEY (id) 
); 


CREATE TABLE lambdaarchitecture.batchviewdata ( 
primarytype varchar, 
count int, 
PRIMARY KEY (primarytype) 
); 
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接 下 来 将 配置 并 集成 Spark 集群 ， 以 利用 Spark-Cassandra API 来 执行 CRUD 操作 : 
(1) M http://archive.apache.org/dist/spark/ spark-1.4.0/spark-1.4.0-bin-hadoop2.4.tgz 下 载 
Spark 1.4.0。 
Spark 1.5.0 的 Spark-Cassandra 连接 器 仍 处 于 开发 阶段 ， 因 此 这 里 使 用 Spark 
1.4.0 的 稳定 版 驱动 程序 和 连接 器 。 
(2) 解压 Spark 二 进 制 文件 ， 将 $ SPARK_HOME 环境 变量 指向 解压 二 进 制 文件 的 
目录 : 


export SPARK HOME = <location of the Spark extracted Archive> 





G) 下 载 以 下 JAR 文件 并 将 它们 保存 到 $CASSANDRA HOME /lib 目录 中 : 
口 ”Spark-Cassandra 连接 器 Chttp://repol.maven.org/maven2/com/datastax/spark/spark- 
cassandra-connector_2.10/1.4.0/spark-cassandra-connector_2.10-1.4.0.jar) 
Q Cassandra 核心 驱动 程序 Chttp://repol maven.org/maven2/com/datastax/cassandra/ 
cassandra-driver-core/2.1.9/ cassandra-driver-core-2.1.9.jar) 
口 Spark-Cassandra 的 Java P Chttp://repol.maven.org/maven2/com/datastax/spark/spark- 
cassandra-connector-java 2.10/1.4.0/spark-cassandra-connector-java 2.10-1.4.0.jar) 
O 其 他 相关 JAR 3f (Chttp://central.maven.org/maven2/org/joda/joda-convert/1.2/ 
joda- convert-1.2.jar) 
口 ” 其 他 相关 JAR 文件 Chttp://central.maven.org/maven2/joda-time/joda-time/2.3/joda- 
ime-2.3.jar) 
口 他 相关 JAR 文件 Chttp://central.maven.org/maven2/com/twitter/jsr166e/1.1.0/ 
jsr166e-1.1.0.jar) 
(4) 打开 并 编辑 8SPARK_HOME/conf/spark-default.conf 文件 ， 然 后 定义 如 下 的 环 
境 变 量 : 
spark.driver. extraClassPath=$CASSANDRA_HOME/ lib/apache-cassandra-2.1.7 
-jar:$CASSANDRA HOME/lib/apache-cassandra-clientutil-2.1.7.jar:$CASSANDRA 
HOME/lib/apache-cassandra-thrift-2.1.7.jar:$CASSANDRA HOME/lib/cassandra- 
driver-internal-only-2.5.1.zip:$CASSANDRA HOME/lib/thrift-server-0.3.7.jar: 
$CASSANDRA HOME/lib/guava-16.0.jar:$CASSANDRA HOME/lib/joda-convert-1.2.jar: 
$CASSANDRA HOME/lib/joda-time-2.3.jar:$CASSANDRA HOME/lib/jsri66e-1.1.0.jar: 
$CASSANDRA HOME/lib/spark-cassandra-connector 2.10-1.4.0.jar;$CASSANDRA 
HOME/lib/spark-cassandra-connector-java 2.10-1.4.0.jar;$CASSANDRA HOME/lib 


c 
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/cassandra-driver-core-2.1.9.jar 

spark .executor .extraClassPath=$CASSANDRA_HOME/1ib/apache-cassandra-2.1.7 
. jar: $CASSANDRA_HOME/1ib/apache-cassandra-clientutil-2.1.7.jar:$CASSANDRA_ 
HOME/lib/apache-cassandra-thrift-2.1.7.jar:$CASSANDRA HOME/lib/cassandra- 
driver-internal-only-2.5.1.zip:$CASSANDRA HOME/lib/thrift-server-0.3.7.jar 
:$CASSANDRA HOME/lib/guava-16.0.jar:$CASSANDRA HOME/lib/joda-convert-1.2.jar: 
$CASSANDRA HOME/lib/joda-time-2.3.jar:$CASSANDRA HOME/lib/jsri166e-1.1.0.jar: 
$CASSANDRA HOME/lib/spark-cassandra-connector 2.10-1.4.0.jar;$CASSANDRA 
HOME/lib/spark-cassandra-connector-java 2.10-1.4.0.jar;$CASSANDRA HOME/lib 
/cassandra-driver-core-2.1.9.jar 

spark.cassandra.connection.host-localhost 


TESCASSANDRA HOME 替换 为 当前 文件 系统 上 的 实际 位 置 并 保存 配置 文件 。 
(5) 关闭 Spark 集群 ， 并 使 用 Spark 1.4.0 二 进 制 文件 启动 master 和 worker 进程 。 
gÅ 有 关 Spark-Cassandra 连接 器 的 更 多 信息 ， 请 参考 https://github.com/datastax/ 
Spark-cassandra-connector。 
至 此 ，Spark 和 Cassandra 的 配置 和 集成 已 完成 。 现 在 转 到 下 一 节 ， 对 生产 者 和 其 他 层 
/作业 进行 编码 。 


10.3.3 ”编写 自 定义 生产 者 程序 


执行 以 下 步骤 编写 自 定 义 生产 者 的 Java 程序 : 
(1) 在 Eclipse 中 打开 Spark-Examples 项 目 ， 并 添加 一 个 名 为 chapter.ten.producer. 
CrimeProducerjava 的 新 包 及 类 。 
(2) 编辑 CrimeProducerjava 并 在 其 中 添加 以 下 代码 片段 : 


package chapter.ten.producer; 





import java.io.BufferedReader; 
import java.io.FileReader; 
import java.io.OutputStream; 
import java.io.PrintWriter; 
import java.net.ServerSocket; 
import java.net.Socket; 


import java.util.Random; 
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public class CrimeProducer { 


public static void main(String[] args) { 


if (args == null || args.length <1) { System.out.println ("Usage - java 
chapter.ten.CrimeProducer <port#>"); 
System.exit (0); 
} 
System.out.println ("Defining new Socket on " + args[0]); try (ServerSocket 
soc = new ServerSocket (Integer.parseInt (args[0]))) { 


System.out.println("Waiting for Incoming Connection on - " 
* args[0]); 
Socket clientSocket - soc.accept(); 
System.out.println ("Connection Received"); 
OutputStream outputStream = clientSocket.getOutputStream() ; 
// Path of the file from where we need to read crime //records. String 
filePath = "/home/ec2-user/softwares/crime-data/Crimes -Aug-2015.csv"; 
PrintWriter out = new PrintWriter(outputStream, true); BufferedReader 
brReader = new BufferedReader (new FileReader(filePath)); 
// Defining Random number to read different number of 
//records each time. 
Random number - new Random(); 
// Keep Reading the data in a Infinite loop and send it 
//over to the Socket. 
while (true) ( 
System.out.println("Reading Crime Records"); 
StringBuilder dataBuilder - new StringBuilder(); 
// Getting new Random Integer between 0 and 20 
int recordsToRead = number.nextInt(20); System.out.println ("Records to 
Read = " + recordsToRead); 
for (int i = 0; i « recordsToRead; i++) ( 
String dataLine = brReader.readLine() + "An"; 
dataBuilder.append (dataLine); 
} 
System.out.println("Data received and now writing it to Socket"); 
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out.println (dataBuilder); 
out.flush(); 
// Sleep for 20 Seconds before reading again 
Thread.sleep (20000); 
} 
} catch (Exception e) { 
e.printStackTrace(); 
}} 
} 


至 此 ， 实 现 了 犯罪 用 例 生产 者 的 程序 编写 。 
QO 请 参照 代码 中 提供 的 注释 理解 代码 流程 。 相 同 的 风格 会 在 本 章 中 继续 使 用 


10.3.4 编写 实时 层 代码 


执行 以 下 步骤 使 用 Scala 语言 对 实时 层 进行 编码 : 

(1) 在 Eclipse 中 打开 Spark-Examples 项 目 ， 并 向 其 添加 一 个 名 为 chapterten. 
dataConsumption.LADataConsumptionJob.scala 的 新 Scala 包 和 对 象 。 

(2) LADataConsumptionJob 是 Spark Streaming 作业 ， 它 将 侦 听 套 接 字 并 在 数据 到 
达 时 消耗 数据 。 除 了 创建 StreamingContext 和 利用 socketTextStream 来 消耗 数据 ， 还 将 定 
义 两 个 函数 : 一 个 用 于 在 Cassandra 中 的 主 表 (masterdata) 中 持久 化 /附加 数据 ;， 另 一 个 
用 于 对 相同 的 数据 进行 分 组 ， 以 找 出 不 同 犯罪 类 型 的 计数 和 最 终 将 其 持续 化 到 Cassandra 
的 实时 视图 表 (realtimedata) 中 。 作 为 第 一 步 ， 定 义 persistInMaster() 用 于 将 原始 数据 持 
久 化 到 主 表 中 : 


def persistInMaster (streamCtx:StreamingContext, lines:DStream[Stri ng]) { 





//Define Keyspace 

val keyspaceName ="lambdaarchitecture" 
//Define Table for persisting Master records 
val csMasterTableName-"masterdata" 


lines.foreachRDD { 
P ep 


//Splitting, flattening and finally filtering to exclude any Empty 
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Rows 
val rawCrimeRDD = x.map( .split("\n")).flatMap { x => x }.filter { x 
=> x.length()>2 } 
printin("Master Data Received = "+rawCrimeRDD.collect () .length) 


//Splitting again for each Distinct value in the Row and creating Scala 
SEQ 

val splitCrimeRDD = rawCrimeRDD.map { x => x.split(",") }.map(c => 

createSeq(c) ) 

println("Now creating Sequence Persisting") 

//Finally Flattening the results and persisting in the table. 

val crimeRDD = splitCrimeRDD.flatMap (f=>f) 

crimeRDD.saveToCassandra (keyspaceName, csMasterTableName, So 

meColumns ("id", "casenumber", "date", "block","iucr", "primarytype", 


"description")) 


G) 前 面 的 函数 接受 RDD 字符 串 ， 并 将 其 保存 到 Cassandra 中 的 主 表 (masterdata) 
中 。 现 在 定义 generateRealTimeView()， 它 将 聚合 原始 犯罪 数据 (RDD 字符 串 )， 并 将 其 持 
久 化 到 Cassandra 实时 表 (realtimedata) "f: 


def generateRealTimeView (streamCtx:StreamingContext, lines:DStream[ String]) { 
//Define Keyspace 
val keyspaceName ="lambdaarchitecture" 
//Define table to persisting process records 
val csRealTimeTableName="realtimedata" 


lines.foreachRDD { 
x => 
//Splitting, flattening and finally filtering to exclude any Empty 
Rows 
val rawCrimeRDD = x.map( .split("\n")).flatMap { x => x }.filter { x 
=> x.length()>2 } 
printin("Real Time Data Received = "«rawCrimeRDD.collect(). length) 
//Splitting again for each Distinct value in the Row 
val splitCrimeRDD = rawCrimeRDD.map { x => x.split(",") } 
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//Converting RDD of String to Objects [Crime] 

val crimeRDD = splitCrimeRDD.map(c => Crime(c(0), 
c(1),c(2),c(3),c(4),c(5),c(6))) 

val sqlCtx = getInstance (streamCtx.sparkContext) 

//Using Dynamic Mapping for creating DF 

import sqlCtx.implicits. 

//Converting RDD to DataFrame 

val dataFrame = crimeRDD.toDF() 

//Perform few operations on DataFrames 

println ("Number of Rows in Data Frame = "«dataFrame.count()) 


// Perform Group By Operation using Raw SQL 

val rtViewFrame = dataFrame.groupBy ("primarytype").count () 
//Adding a new column to DF for PK 

val finalRTViewFrame = rtViewFrame.withColumn("id", new 

Column ("count") +System.nanoTime) 

//Printing the records which will be persisted in Cassandra 

println("showing records which will be persisted into the realtime 
view") 

finalRTViewFrame.show (10) 

//Leveraging the DF.save for persisting/ Appending the complete 
DataFrame. 

finalRTViewFrame.write.format("org.apache.spark.sql. cassandra"). 
options(Map( "table" -> "realtimedata", "keyspace" -> 
"lambdaarchitecture" )).mode (SaveMode.Append).save() 


//Defining Singleton SQLContext variable 


(transient private var instance: SQLContext = null 


//Lazy initialization of SQL Context 


def getInstance(sparkContext: SparkContext): SQLContext - 


synchronized ( 
if (instance == null) { 


instance = new SQLContext (sparkContext) 
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instance 
} 


Qo 有 关 功 能 的 完整 实现 ， 请 参阅 本 书 配套 的 示例 代码 包 . 


10.3.5 ”编写 批 处 理 层 代码 


执行 以 下 步骤 使 用 Scala 语言 对 批 处 理 层 进行 编码 : 
(1) 在 Eclipse 中 打开 Spark-Examples 项 目 ， 并 添加 一 个 名 为 hapter.ten.batch. 
LAGenerateBatchViewJob.scala 的 新 Scala 包 和 对 象 。 
(2) LAGenerateBatchViewJob 是 Spark 批 处 理 作业 ， 简 单 来 说 ， 它 从 主 表 中 获取 数 
据 ， 根 据 犯罪 类 型 对 记录 进行 分 组 ， 并 将 分 组 的 记录 保存 在 Cassandra 的 主 视图 表 
Cbatchviewdata) 中 。 除 了 在 主 方法 中 定义 SparkContext 和 SparkConf 外 ， 还 将 定义 并 调 
用 名 为 generateMasterView(SparkContext) 的 函数 : 





def generateMasterView (sparkCtx:SparkContext) { 
//Define Keyspace 
val keyspaceName ="lambdaarchitecture" 
//Define Master (Append Only) Table 
val csMasterTableName="masterdata" 
//Define Real Time Table 
val csRealTimeTableName="realtimedata" 
//Define Table for persisting Batch View Data 
val csBatchViewTableName = "batchviewdata" 


// Get Instance of Spark SQL 

val sqlCtx = getInstance (sparkCtx) 

//Load the data from "masterdata" Table 

val df = sqlCtx.read.format("org.apache.spark.sql. cassandra") 
-options(Map( "table" -> "masterdata", "keyspace" -> 
"lambdaarchitecture" )).load() 

//Applying standard DataFrame function for 

//performing grouping of Crime Data by Primary Type. 

val batchView = df.groupBy ("primarytype").count() 

//Persisting the grouped data into the Batch View Table 


batchView. write. format ("org.apache.spark.sql.cassandra"). 
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options (Map ( "table" -> "batchviewdata", "keyspace" -> 


"lambdaarchitecture" )).mode (SaveMode.Overwrite).save() 


//Delete the Data from Real-Time Table as now it is 
//already part of grouping done in previous steps 
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val csConnector = CassandraConnector.apply (sparkCtx.getConf) 


val csSession - csConnector.openSession() 


csSession.execute ("TRUNCATE "+keyspaceName+"."+csRealTimeTableName) 


csSession.close() 


println ("Data Persisted in the Batch View Table - lambdaarchitecture. 


batchviewdata") 


//Defining Singleton SQLContext variable 
@transient private var instance: SQLContext = null 
//Lazy initialization of SQL Context 
def getInstance(sparkContext: SparkContext): SQLContext - 
synchronized ( 
if (instance -- null) ( 
instance - new SQLContext (sparkContext) 
} 
instance 


Qo 有 关 功 能 的 完整 实现 ， 请 参阅 本 书 配套 的 示例 代码 包 . 


10.3.6 ”编写 服务 层 代码 


执行 以 下 步骤 ， 使 用 Scala 语言 对 服务 层 进行 编码 : 


(1) 在 Eclipse 中 打开 Spark-Examples 项 目 ， 并 添加 一 个 名 为 chapterten.serving. 


LAServingJob.scala 的 新 Scala 包 和 对 象 。 


(2) LAServingJob 也 是 一 个 批 处 理 作 业 ， 它 从 Cassandra 的 batchviewdata 和 


realtimedata 表 中 获取 数据 ， 并 将 它们 分 组 以 向 消费 者 呈现 最 终 记 录 。 除 了 寿 
义 的 SparkContext 和 SparkConf 外 ， 还 将 定义 并 调用 一 个 名 为 gene 





E 主 方法 中 定 


ratefinal View 
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(Spark Context) 的 函数 : 


def generatefinalView(sparkCtx:SparkContext)( 
//Define Keyspace 
val keyspaceName -"lambdaarchitecture" 
//Define Master (Append Only) Table 
val csRealTimeTableName-"realtimedata" 
//Define Table for persisting Batch View Data 
val csBatchViewTableName = "batchviewdata" 


// Get Instance of Spark SQL 

val sqlCtx = getInstance (sparkCtx) 

//Load the data from "batchviewdata" Table 

val batchDf - sqlCtx.read.format("org.apache.spark.sql. cassandra") 
.options (Map( "table" -> "batchviewdata", "keyspace" -> 
"lambdaarchitecture" )).load() 


//Load the data from "realtimedata" Table 
val realtimeDF = sqlCtx.read.format ("org.apache.spark.sql. 
cassandra") 
.options (Map( "table" -> "realtimedata", "keyspace" -> 
"lambdaarchitecture" )).load() 


//Select only Primary Type and Count from Real Time View 
val seRealtimeDF = realtimeDF.select("primarytype", "count" 


//Merge/ Union both ("batchviewdata" and "realtimedata") and 
//produce/ print the final Output on Console 
println("Final View after merging Batch and Real-Time Views") 
val finalView = batchDf.unionAll (seRealtimeDF) . 
groupBy ("primarytype").sum("count") 
finalView. show (20) 

} 


至 此 ，Lambda 架构 的 所 有 层次 编码 已 经 完成 。 现 在 转 到 下 一 部 分 ， 将 逐一 执行 所 有 
层 程序 并 查看 结果 。 
& 进行 编译 时 请 确保 已 将 必要 依赖 项 添加 到 Eclipse 项 目 中 ， 这 些 依赖 项 为 
Cassandra 和 Spark-Cassandra 驱动 程序 所 提供 。 
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10.3.7 执行 所 有 层 代码 


执行 以 下 步骤 来 执行 所 有 服务 : 
(1) 首先 将 Spark-Examples 项 目 导 出 为 spark-examples.jar 并 将 其 保存 在 一 个 目录 
中 。 将 此 目录 以 <LA-HOME> 表 示 。 
(2) 启动 犯罪 用 例 生产 者 程序 。 打 开 新 的 Linux 控制 台 并 从 <LA-HOME> 执 行 以 下 
命令 : 


java -classpath spark-examples.jar chapter.ten.producer. 














CrimeProducer 9047 
(3) 继续 启动 实时 作业 ， 以 实现 填充 主 表 的 同时 填充 实时 视图 。 为 此 打开 一 个 新 的 
控制 台 ， 切 换 到 <LA-HOME>， 并 执行 以 下 命令 来 启动 实时 作业 : 
$SPARK_HOME/bin/spark-submit --class chapter.ten.dataConsumption. 


LADataConsumptionJob --master spark: //ip-10-149-132-99:7077 
spark-examples.jar 9047 


(4) 前 述 命令 一 旦 执行 ，masterdata 和 realtimedata 两 个 Cassandra 表 将 被 填充 。 为 
了 浏览 数据 ， 可 以 打开 一 个 新 的 Linux 控制 台 并 执行 以 下 命令 : 


$CASSANDRA HOME/bin/cqlsh 
Select * from lambdaarchitecture.masterdata; 


这 时 输出 如 图 10.7 所 示 。 





图 10.7 


图 10.7 显示 了 Cassandra 中 主 表 的 输出 。 也 可 以 在 同一 个 CQLSH 窗口 中 执行 “Select 
* from lambdaarchitecture realtimedata: ”来 查看 实时 表 中 的 数据 。 
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C5) 创建 批 处 理 层 并 执行 批 处 理 作 业 LAGenerateBatchViewJob。 这 里 的 批 处 理 作业 

是 可 以 安排 定期 执行 的 手动 作业 ， 不 过 为 了 简单 起 见 ， 可 以 在 新 的 Linux 控制 台 上 执行 
以 下 命令 : 

$SPARK_HOME/bin/spark-submit --class chapter.ten.batch. 

LAGenerateBatchViewJob --master spark: //ip-10-149-132-99:7077 

spark-examples.jar 

一 旦 执行 前 面 的 命令 ，Cassandra 中 的 batchviewdata 表 将 填充 最 新 数据 。 可 以 在 
CQLSH 窗口 执行 “Select * from lambdaarchitecture batchviewdata: ”来 浏览 数据 。 

图 10.8 显示 了 batchviewdata 表 中 所 聚合 的 犯罪 数据 。 








图 10.8 
(6) 启动 名 为 LAServingJob 的 服务 层 , 它 应 用 户 请 求 执行 。 此 作业 将 合并 批 处 理 和 
实时 视图 ， 并 以 单个 输出 视图 呈现 。 可 以 打开 一 个 新 的 Linux 控制 台 并 执行 以 下 命令 : 


$SPARK HOME/bin/ spark-submit --class chapter.ten.serving. 
LAServingJob --master spark://ip-10-149-132-99:7077 spark-examples.jar 





- 旦 执行 上 述 命令 , 将 产生 batchviewdata fil realtimedata 包含 数据 的 合并 视图 ， 并 输 
出 到 控制 台 ， 结 果 类 似 于 图 10.9 所 示 。 











图 10.9 


至 此 ， 完 成 了 Lambda 架构 的 所 有 层 执行 。 
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前 面 已 经 讨论 了 Lambda 架构 的 整体 概念 和 目标 , 这 些 只 是 刚刚 触及 了 冰山 一 角 。 根 
据 Lambda 原理 开发 的 架构 可 以 更 复杂 、 更 具 启 发 性 ， 相关 讨论 和 问题 解决 颇 为 有 趣 ， 不 
过 那些 内 容 没有 包含 在 本 书 章节 的 范围 内 。 

在 本 节 中 使 用 Spark 和 Cassandra 实现 了 Lambda 架构 .应 用 Spark Streaming 和 Spark 
批 处 理 开 发 了 Lambda 架构 的 所 有 层 , 并 且 利用 和 和 集成 Apache Cassandra 与 Spark 来 持久 
化 数据 。 

如 有 任何 关于 Lambda 架构 的 疑问 或 用 例 问 题 , 请 发 送 电 子 邮 件 至 sumit1001@gmail.com， 
本 书 作者 将 与 读者 一 起 解决 探索 。 
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在 本 章 中 讨论 了 Lambda 架构 的 各 个 方面 。 
讨论 了 Lambda 架构 的 各 个 层 /组 件 所 执行 的 角色 ,还 利用 Spark 和 Cassandra 来 设计 、 
开发 和 执行 了 Lambda 架构 的 所 有 层 。 


